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第 1 章 MATLAB 数据 处 理 入 门 


在 统计 应 用 过 程 中 , 使 用 计算 机 进行 数据 处 理 是 一 种 必然 的 选择 目前， 已 经 有 许 
多 大 型 统计 分 析 软 件 可 供 人 们 使 用 ， 最 为 著名 的 如 SAS，SPSS 和 SYSTAT 系统 等 . 在 
这 里 我 们 选择 MATLAB 作为 统计 数据 处 理工 具 ， 不 是 至 为 它 有 更 为 强大 的 统计 分 析 能 
力 ， 而 是 因为 MATLAB 系统 在 科学 计算 领域 的 通用 性 ， 它 更 适合 在 专业 众多 的 工科 院 
校 普 及 . 

用 MATELAB 进行 数据 处 惠 , 可 以 在 MATLAB 的 指令 窗口 (Command 克 indow) 中 进 
行 ， 也 可 以 在 MATILAB Notebook 环境 中 进行 (这 是 一 种 MATLAB 与 Microsoft 多 ord 
“无 竹 " 链 接 的 产物 ,是 文字 处 理 、 数 学 计算 和 图 形 绘制 一 体 化 的 工作 环境 ). 本 章 简 亡 介 
绍 在 MATLAB 的 工作 环境 下 进行 数据 处 理 的 基础 知识 ,对 于 此 前 尚未 接触 过 MATLAB 
的 读者 ， 本 章 内 容 可 作为 入 门 教程 ; 对 于 已 经 了 解 MATLAB 的 读者 ,本章 内 容 可 作为 
课余 阅读 资料 ， 教 学 中 略 过 ， 


1.1 数值 矩阵 的 建立 与 基本 操作 


1.1.1 数值 矩阵 的 建立 


MATLAB 语言 主要 的 数据 对 象 是 数值 矩阵 ，MATLAB 语言 中 , 数值 所 阵 的 输入 方 
法 有 直接 输入 法 、 文 件 装载 法 、 函 数 生成 法 ， 
1.1.1.1 直接 输入 法 

直接 输入 法 是 由 赋值 语句 实现 的 . 赋值 语句 的 基本 结构 是 ; 

壬 全 变量 = 赋值 表达 式 

赋值 变 景 通常 是 用 户 自 定义 恋 量变 景 名 是 由 英文 字母 引导 的 ， 由 字母 、 数 字 和 下 划 线 
组 成 ; MATLAB 对 字母 的 大 小 写 是 敏感 的 ， 

用 赋值 语句 建立 m 行 = 列 的 二 维 数值 仑 阵 ( 以 下 简称 矩阵 ) 的 基本 格式 是 ， 

夫 降 = [数据 列表 ] 

右 侧 的 一 对 中 括号 “[] "是 矩阵 定义 符 ， 其 中 的 数据 列表 排列 成 m 行 a 列 ,每 一 行 用 分 
号 ”; “区 分 ， 行 中 元 素 用 有 逗号 "“，" 区 分 (逗号 也 可 用 一 个 空格 代替 )， 

【 例 1.1] 建立 一 个 3x4 的 矩阵 4 ， 





2 。 扫 理 统计 与 UN4d 22.4 吾 数据 处 理 


R= Ti,2,3,4; 5,6,7,8; 9,10,11,12] 


上 述 指令 的 运行 结果 是 ， 

及 = 
1 2 3 14 
5 6 7 8 


说 明 : 输入 必须 在 英文 状态 下 进行 , 在 定义 符 “f]? 的 结尾 处 (外 侧 ) 可 以 缀 加 一 个 分 
号 ， 此 时 仅 向 MATLAB 的 工作 内 存 输入 了 一 个 矩阵 4,， 但 在 当前 的 工作 窗口 中 不 稼 
出 (显示 ) 这 个 移 阵 ， 

在 指令 窗口 中 ， 输 入 一 条 指令 后 单 击 “Enter" 键 即 可 运行 这 一 指令 . 在 Noteboot 环 
境 中 ， 需 要 用 鼠标 选中 这 一 指令 ， 按 住 “<Ctt" 键 ， 然后 单 击 “Enter" 键 即 可 运行 这 一 指令 ， 

[ 例 1.2] 当 抢 阵 退 化 为 一 个 数 或 一 个 向 量 时 ， 订 以 由 一 个 代数 表达 式 加 以 定义 ， 
而 不 必 使 用 矩阵 定义 符 “[ ]”， 

人 = 和 PS 

=2x(3+2xXi) 

B= (1:2:8) * 车 

上 述 指令 实际 上 是 向 MATLAB 的 工作 内 存 输入 了 下 列 数值 或 向 量 ， 

忆 = 

了 .2204e 一 晶 16 


.0000 + 4.00001 
也 = 
了 .1416 9 .4248 15.7080 21.9911 
说 明 , 他 表达 式 中 的 eps ipi 都 是 MATLAB 的 保留 常数 ，MATLAB 常用 的 保留 
常数 与 保留 变量 如 下 ， 
保留 常数 或 变 罩 常数 或 变量 的 意义 
epbs ”机 可 零 间 值 ,2.2204X10 瑟 
让 ji 大 数 单位 
主 团 轴 率 
Inf + 的 MATLAB 表示 
NaN 不 定式 0 或 coyo 指 MATLAB 表示 
ans ”预定 义 献 省 畏 出 变量 
这 些 不 允许 用 户 在 自 定义 变量 时 使 用 ， 
四 最 后 一 个 同 值 语句 给 出 了 向 MATLAB 输入 一 个 等 差 数 列 的 方法 , 在 表达 趟 
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aitip 中 ，a 是 数列 的 首 项 ，d 是 数列 的 父 莽 ,8 是 数列 的 土 界 ( 可 能 是 最 后 一 项 或 比 
最 后 一 项 大 的 数 ) . 
1.1.1.2 文件 装载 法 

对 于 大 规模 的 答 阵 , 通常 预先 编写 数据 文件 存 乔 ， 然 后 使 用 "loadq" 语 句 从 数据 文件 
中 直接 读 人 ， 

司 用 MATLAB 系统 自身 的 * 内 存 变 量 编辑 器 ”({Array Editor) 编 写 数 据 文 件 十 分 方便 
可 车 ,操作 方法 是 ， 

加 在 指令 窗口 中 向 指定 的 新 变量 峡 " 空 "矩阵 ,如 byk= []; 

人 在 "内存 变 量 浏览 吉 ”(Workspace) 中 双击 该 变量 ， 启 动 * 内 存 变量 编辑 器 "; 

电 在 “内存 变 量 编辑 器 "弹出 的 空白 表格 中 , 每 一 个 单元 格 对 应 答 阵 的 一 个 元 喜 , 填 
写 具 体 数值 ; 

纯 保存 该 变 县 为 数据 文件 ， 如 文件 名 为 byk， 保 存 到 MATELAB 系统 很 目录 下 的 
work 子 目 录 中 (或 用 户 自己 的 工作 目录 下 ,变量 名 与 数据 文件 名 可 以 不 一 致 ， 一 个 数据 
文件 也 可 以 包含 密 个 数据 变量 . 详细 的 内 容 请 参阅 其 他 MATLAB 专门 教程 ) ， 

在 需要 调用 这 个 数据 文件 时 ， 只 需 运 行 指令 Joad byk 即 可 , 也 可 以 利用 任何 一 个 文 
本 编辑 器 (如 Mierosoft Excel) 编写 这 个 数据 文件 ,注意 要 保存 为 纯 文 本 文件 ， 如 
byk,txt, 在 需要 调用 这 个 数据 文件 时 ， 只 需 运 行 指令 load byk,txt. 
1.1.1.3 函 数 生成 法 ， 

在 一 些 特殊 的 场合 ， 需 要 用 MATLAB 定义 的 用 来 构 叶 特殊 矩阵 的 函数 向 系统 输入 
数据 , 使 用 MATLAB 定义 的 函数 称 为 函数 的 调用 ， 这 是 MATLAB 应 用 的 一 项 重要 技 
能 . MATLAB 函数 调用 语句 的 基本 结 梅 是 : 

[返回 谈 量 列表 ] = 本 数 名 { 输 入 谈 量 列表 ) 
其 中 , 返回 、 输 入 变量 列表 中 均 可 包含 若干 个 变量 ， 变 量 名 之 间 用 逗号 分 隔 . 常用 的 构 
造 特殊 第 阵 的 函数 有 : 
男 数 及 调用 烙 式 画 数 芒 能 
= zerosft tt) 生成 元 豆 全 为 上 的 TrXe 夫 阵 字 
癌 = ones(r,c) 生 或 元 素 全 为 1 的 rxc 拒 降 口 
E=eye(r,c) 生成 对 角 线 为 1、 其 他 元 素 多 为 索 的 TXc 拒 阵 下 
也 = 出 agfx) 生成 以 向 重 x 的 元 素 为 对 角 元 的 对 谓 起 阵 呈 

在 统计 研究 中 ,往往 需要 构造 服从 某 一 特定 分 布 的 随机 数 定 阵 ， 这 方面 的 函数 较 
多 ,在 后 面 的 内 容 中 会 有 这 方面 的 应 用 ， 关 于 此 类 函数 详细 的 内 容 请 参阅 本 书 附录 了 

【[ 例 1.3】 特殊 矩阵 的 函数 生成 . 

世 = zerost2,3) 刍 生 成 2X3 的 全 宕 埠 阵 
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D= ones(3) 秆 生成 3 阶 全 工 方 阵 ; 方 阵 只 需 输 入 行 数 
BEB=eyef3,4) 芋 生 成 3X4 的 对 角 线 为 1 的 矩阵 
D= diagf1:5) 生生 成 对 角 元 为 1]、2、3、4、5 的 $ 阶 对 前 起 血 


上 述 指 令 的 运行 结果 是 ， 
巴 三 
0 0 0 
0 0 0 
癌 = 
1 1 1 
1 1 1 
1 1 1 


避 已 喇 上 避 
避 它 届 吕 马 
富 心 呈 总 
tm 


说 明 ，@ 表达 式 中 的 百 分 导 “% "是 MATLAB 的 注释 符 ， 用 来 对 指令 中 的 某 些 内 容 
进行 说 明 .“%" 忆 须 在 英文 状态 下 输入 ， 其 后 的 内 容 可 以 在 中 文 状态 下 输入 ， 指 令 运 行 
时 不 执行 这 部 分 内 容 . 

包 di 是 一 个 双向 操作 函数 ， 当 输入 参数 x 是 一 个 向 量 时 ， 输 出 (返回 ) 以 这 个 向 量 
为 对 角 元 的 对 角 抑 阵 ; 而 当 输 入 参数 x 是 一 个 方 阵 时 ， 则 返回 由 这 个 方 阵 的 对 角 元 构成 
的 列 向 量 ， 


1.1.2 扼 阵 的 基本 操作 


下 而 介绍 关于 扼 阵 元 到 的 寻访 与 修改 ,以 及 矩阵 的 裁 前 与 拼接 等 矩阵 损 作 方法 . 此 
类 技能 是 使 用 MATLAB 进行 数据 处 理 所 必 须 的 ， 

【 例 1,4】 和 邱 阵 元 坊 的 寻访 与 修改 ， 

= f1,2,3,4; 2,3,4,5; 3,4.5,6; 4,5,6,7] 当 侧 建 一 个 殿 摊 作 的 抢 阵 

了 23= 了 2,3) 刁 导 访 (取出 ) 和 的 第 2 行 、3 列 允 又 位 置 的 元 素 
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R(2,2)= 昌 先 特 和 的 第 2 行 、2 列 交叉 位 置 元 素 赃 值 为 震 


上 述 指令 的 运行 结果 是 ， 

页 三 
1 2 3 4 
2 3 4 5 
3 4 5 6 
4 5 6  ? 

M23 = 
4 

下 三 
1 2 3 414 
2 0 4 5 
3 14 5 6 
4 5 6 7 


{ 例 1.$]】 拓 阵 的 裁剪 (提取 基 些 行 、 列 ， 或 删除 某 些 行 、 列 )， 

RMR3 = M3,:) % 取 省 太 的 秆 3 行 

RMC2 = NM:,2) 当 取 出 页 的 第 2 列 

JR13 = AL1:2:3,:) 攻取 出 和 页 的 第 1、3 两 行 

JR23C14 = M2:3,4: -3:1) 先 取 出 和 的 第 2、3 行 与 第 4、1 列 交 义 位 置 元 素 
RM:,4)=[] 光 删 除 和 的 第 4 列 , 起 件 的 变量 名 不 变 


上 上述 指令 的 运行 结果 是 : 
AR3 = 

3 4 所 8 
RMC2 = 

2 

0 

4 

5 
hR13 = 

1 2 3 4 

3 4 5 6 
aMR23C14 = 


在 
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心 (4 Fo 
tn 上 心 呈 ho 
(tn LU 


6 
由 例 1.5 可 知 ， 针 号“: "在 MATLAB 语言 药 和 矩阵 操作 中 发 挥 着 前 刀 的 作用 ， 
[ 例 1.6]】 和 矩阵 药 拼 接 { 已 知 定 阵 的 扩展 ， 或 几 个 抢 阵 合并 成 一 个 新 矩阵 )， 
B= [Rones(4,2)] 名 在 和 的 右边 拼接 ones(4，2) 
C= [RM1:2, :)ieye(3)] 当 在 入 的 1、2 两 行 下 边 衬 接 eyef(3) 
D= [RM1:2,2:3)，zeros(2)1onesf2,4)] 和 在 A(1:2,2:3) 右 接 2 阶 索 答 阵 ， 然 后 下 
接 2x4 全 芷 趣 降 


上 述 指令 的 运行 结果 是 ; 
是 = 
1 2 3 1 1 
2 0 4 1 1 
3 4 5 1 1 
4 5 6 1 1 
马 = 
1 2 了 
2 0 4 
1 0 0 
0 1 0 
0 0 1 
D = 
2 3 0 0 
0 4 0 0 
1 1 1 1 
1 1 1 1 


1.2 基本 数学 运算 与 常用 末 数 


1.2.1 基本 数学 运算 
MATLAB 数学 运算 的 对 象 是 怎 阵 ， 也 就 是 说 ， 要 理解 MATLAB 中 的 数学 运算 ， 关 
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键 是 把 握 各 种 运算 符 作 用 于 矩阵 的 规则 ， 
1.2.1.1 矩阵 的 代数 适 算 

MATLAB 语言 提供 了 如 下 年 阵 代 数 运 算 的 运算 符 ; 

' 转 置 + 加 法 一 减法 #* 来 法 " 素 守 愉 堪 除 / 右 除 

上 述 运算 符 的 运算 规则 遵 竺 了 线性 代数 教程 中 的 相关 定义 . 矩阵 代数 运算 要 求 维 数 
相 容 ， 和 否则 将 产生 错误 信息 . 这 里 ， 需 要 特别 强调 的 是 : 

他 卸 阵 的 转 置 “*”" 是 措 矩阵 的 共 斩 转 置 ; 

@@ 矩阵 的 左 除 "\ ”和 右 除 “/ 的 含义 是 , 设 上 是 可 道 矩阵 , 则 4 层 = 有 的 解 是 4 在 
除 吾 , 即 必 =4\ 了 ( 若 妇 为 列 向 量 , 则 民 为 方程 组 的 解 ); 84 = 有 的 解 是 4 右 除 吾 ， 
即 避 = 有 /4( 若 吾 为 列 向 量 , 则 为 方程 组 的 解 )， 
1.2.1.2 矩阵 的 标量 批 处 理 运 算 

MATLAB 在 需要 的 时 候 可 以 将 矩阵 视 为 普通 的 行列 排列 整齐 的 数据 集合 ,通常 称 
为 数组 . 符 阵 与 数组 在 形式 上 是 一 样 的 ,但 却 是 两 个 不 同 的 概念 . 当 对 一 个 矩阵 (数组 ) 
施行 标 重 批 处 理 运算 时 ， 这 个 矩阵 就 失去 了 线性 代数 教程 中 乍 阵 的 意义 而 成 为 一 个 数组 
了 . MATLAB 语言 提供 了 如 下 标量 批 处 理 运算 的 运算 符 : 

， 转 置  .* 茧 法  . 冬 辕 从 左 除  ./ 右 除 

上 述 运算 符 俗 称 " 点 运算 "， 其 运算 规则 是 两 个 数组 的 对 应 元 素 之 间 的 运算 . 标量 批 
处 理 运 算 权 求 数组 的 维 数 相 癌 ， 和 否则 将 产生 错误 信息 ,特别 地 ， 这 里 的 转 各 “.，* 是 非 共 
斩 转 和 兽 . 
1.2.1.3 和 矩阵 的 关系 运算 

MATLAB 语言 提供 了 如 表 1.1 所 示 的 关系 运算 符 ， 

家 1.1 MATLAB 语言 提供 的 关系 运算 符 











关系 运算 是 在 两 个 数值 之 间 进 行 比较 ， 当 给 定 的 关系 成 立时 返回 数值 1( 表 示 关 系 
真 )， 和 否则 返回 数值 0( 表 示 关 系 假 )， 当 关系 运算 作用 十 一 个 标量 与 一 个 矩阵 时 ， 是 标量 
与 矩阵 的 每 一 个 元 素 进行 比较 ,返回 一 个 与 参与 运算 的 矩阵 同 表 的 由 0 和 1 构成 的 矩 
阵 ; 当 关 系 运算 作用 于 两 个 同型 矩阵 时 ， 是 两 个 矩阵 的 对 应 元 素 之 间 进 行 比较 ,返回 一 
个 由 0 和 上 1 构成 的 同型 给 阵 ， 
1.2.1.4 矩阵 的 逻辑 运算 

MATILAB 语言 提供 了 如 表 .2 所 示 的 逻辑 运算 符 . 
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表 1.2 MATLAB 语言 提供 的 逻辑 运算 符 




















竖 辑 运算 也 是 在 两 个 数值 之 间 进 行 的 ， 运 算 过 程 中 将 任何 非 零 元 素 视 为 1( 真 ). 妆 
膛 辑 运算 作用 于 一 个 标量 与 一 个 矩阵 时 ,运算 在 标量 与 扎 阵 的 等 一 个 元 素 之 间 进 行 , 返 
回 一 个 与 参与 运算 的 矩阵 同型 的 由 0 和 1 构 成 的 矩阵 ; 当 丈 辑 送 算 作用 二 两 个 同型 垂 阵 
时 , 运算 在 两 个 矩阵 的 对 应 元 素 之 间 进 行 ,返回 一 个 由 0 和 1 构成 的 同型 矩阵 ， 

MATLAB 语 育 关 于 运算 优先 级 的 规定 与 数学 中 的 规定 是 一 致 的 . 

【 例 1.7]】 两 种 转 置 运算 的 区 别 ， 

H=[(1:3)+(2:4) xi1xi -1xri3] 台 创建 一 个 供 操作 的 拒 阵 

HL = 可 


队 = 昌 . 
上 述 指令 的 运行 结 昌 是 : 
H = ， 
1.0000 + 2.0000i 2.0000 + 3.0000i 3.0000 + 4,.00001 
0 + 1.0000i 0 - 1.00001 3,0000 
有 = 
1.0000 - 2.0000i 0 - 1.00001 
2.0000 -~ 3,0000i 0 + 1.0000i 
3.0000 - 4.0000i 3.0000 
H2 = 
1.0000 + 2.00001 0 + 1.0000i 
2.0000 + 3.0000i 0 - 1.0000i 
3.0000 + 4.00001 3.0000 
【 例 1.8】 两 种 胰 、 徐 和 素 方 运算 的 比较 . 
名 蚀 建 两 个 供 操作 的 握 阵 . 


As [1,2,3;0,1.2;0,0,1] 
3B= [0,0,110,2,1;3,2,1] 
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创建 的 两 个 矩阵 是 : 
及 = 

2 3 

0 1 2 

0 站 1 
B = 

0 0 1 

癌 了 1 

3 2 1 
外 两 种 磁 法 运算 的 比较 . 
ML = 天 关 也 
ML = 及 .= 了 
这 两 个 指令 的 运行 结果 是 : 
NM1 = 

外 10 厂 

6 6 3 

| 2 | 
HL = 

癌 站 3 

0 2 了 2 

间 站 | 
岛 两 种 除法 运算 的 比较 ， 
NM2 = BAR 
N2 = 3B.7R 
这 两 个 指令 的 运行 结果 是 : 
M2 = 

0 0 1 

册 2 -3 

3 一 肯 站 
了 rzning: Divide by zerc， 
N2 = 

人 0 人 0.3333 
NeN 2.0000 0.5000 


Tnf Inf 1 工 .0000 


和 
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鲁 两 种 匀 方 运算 的 比较 ， 
] 臣 = 2 
芭 = 及 ,2 
这 两 个 指令 的 运行 结果 是 ， 
NMH3 = 
T 下 10 
0 1 玫 
昌 昌 1 
NM3 = 
1 4 9 
站 1 4 
站 T 
此 外 , 还 应 注意 标量 与 矩阵 运算 的 含义 : 标量 与 矩阵 的 运算 是 标量 与 矩阵 的 每 个 元 
率 之 间 的 运算 ， 
【 例 1. 钙 标量 与 矩阵 的 运算 ， 
4 = 及 zx 10 
2 = 及 ,*10 
这 两 个 指令 的 运行 结果 是 ， 
M4 = 
1 20 3 加 
0 0 20 
0 0 10 
了 4 = 
1 0 20 30 
0 IO0 20 
和 日 10 


【思考 题 】 想 一 想 ， 下 列 运算 的 结果 是 什么 ? 

外 5/A， 这 个 运算 有 意义 吗 ? 

提 5./B 和 HB,N\5， 这 两 种 运算 有 意义 吗 ? 运算 的 结果 相同 吗 ? 
名 A./B 和 3B, NA,， 这 两 种 运算 的 结果 相同 吗 ? 

由 A/B 和 BAVA， 这 两 种 运算 的 结果 相同 吗 ? 

【 例 1.10】 标量 与 矩阵 、 摔 阵 与 垂 阵 的 关系 运 算 ， 

Xx=5 

Y=5+#+0ones(3,3) 














sa=[T1l23;456;7810] 
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革 ~- = 
二 ] 
上 述 指令 的 运行 结果 是 ， 
藉 = 
5 
Y = 
5 5 5 
呈 5 5 
5 5 5 
z = 
工 2 3 
本 5 吾 
?了 8 10 
an = 
| | | 
1 让 
] 工 
sam8 = 、 
1 1 
1 1 昌 
0 站 0 
【 例 1.11]】 两 个 数组 之 问 的 还 辑 运 算 ， 
有 = : 
=9 -站 
G= 一 (a>4) 
= (am> =3)E(b6) 
上 述 指令 的 运行 结果 是 ， 
己 = 
工 2 了 
b = 
8 7 站 
c = 
工 工 1 


了 了 


了 数理 统计 与 于 477.4 玉 数据 处 理 


1.2.2 统计 数据 处 理 常用 的 男 数 


MATLAB 提供 了 大 量 的 函数 ， 种 类 繁多 ,按照 函数 的 使 用 方法 可 以 分 为 标量 函数 、 
向 量 范 数 和 年 阵 函数 三 种 类 型 , 下 面 简 要 介绍 这 三 种 类 型 函数 的 一 般 概 念 ， 本 书 附录 和 
列 出 了 MATLAB 核心 程序 包 中 的 函 救 清单 ， 需 要 时 可 通过 MATLAB 系统 帮助 进行 学 
习 . 
1.2.2.1 标量 函 妆 . 

设 上 是 MATLAB 的 标量 函数 ， 即 对 任意 的 于 = (zy)xu， 有 三 () = 
(7(zs))wxw' 标量 函数 的 实质 是 矩阵 元 素 的 批 处 理 运算 ， 这 些 函 数 作用 于 矩阵 时 ,是 
作用 于 矩阵 的 每 一 个 元 素 ( 即 函数 的 自 变 量 实质 上 是 矩阵 的 元 素 ). 标量 函数 主要 包含 基 
本 的 数学 函数 ， 如 三 角 函 数 、 双 曲 函 数 、 撕 数 函数 、 对 数 函 数 、 取 整 函数 ， 等 等 , 统计 数 


据 处 理 中 常用 的 标量 函数 有 ， 


函数 ”功能 描述 

abs() 求 络 对 值 

sqrt{ ) 求 平方 根 

expt ),pow2{) 求 以 e, 2 为 底 的 指数 . 
logl0(),log()，,log2() 未 以 10，e， 2 为 底 的 对 数 
sigh ) 茶 号 函数 
gamma() 工 函 数 
Ioundf ) 四 会 五 入 取 整 

ceilf) 向 + oo 取 整 

floor() 向 一 oo 取 束 
fx() 向 章 取 束 


对 于 各 个 函数 的 具体 调用 格式 ， 除 注意 后 面 内 容 中 的 介绍 之 外 ,更 细致 的 学 习 请 运 


行 指令 


doc 忌 醒 数 各 >> 
查询 MATLAB 系统 帮助 . 利用 MATLAB 系统 的 Help， 可 以 获得 更 多 的 帮助 


【 例 1.12] 标量 函数 的 功能 . 


x=[-1;0.25:0;0:0.25;1] 名 创建 一 个 自 变 量 矩阵 x 
xabs = abs(x)] 怠 求 超 阵 x 中 元 素 的 铬 对 值 
xround = round(x) 和 对 起 阵 工 中 元 素 进 行 四 会 五 入 取 整 
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xceil = ceil(x) 名 对 矩阵 x 中 元 素 向 +oo 取 整 
zexp = expfx) 生计 牙 全 并 把 结果 赋值 姑 xexp 


上 述 指令 的 运行 结果 是 : 
X = 
一 1.0000 一 疙 .750 一 人 0,5000 一 0.2500 N 
0 站 .2500 0.5000 0.7500 1.0000 
Xabs = 
1.0000 日 .7500 站 .5000 0.2500 站 
0 0.2500 0.5000 0.7500 1.0000 
xrOund = 
一 一 工 一 圭 几 0 
0 0 1 
Xceil = 
一 圭 0 0 8 0 
荆 二 世 工 
Xexp = 
,3079 ,472 生 0.6065 0.7788 1.0000 
1.0000 1.2840 】 .64897 2.1170 2.7183 
1.2.2.2 向 量 函 妆 


设 了 是 MATLAB 的 向 基 函 数 ， 只 有 当 其 作用 于 向 量 x 时 才 有 意义 ( 即 函 数 的 自 恋 
量 是 向 量 ). 统计 数据 处 理 中 常用 的 向 量 函 数 有 ， 
函 教 ” 油 能 揪 述 
sumf) 求 向 量 元 素 的 和 
cumsumf) 求 向 量 元 素 的 累积 和 
prodf) 求 向 量 元 素 的 积 
cumprod() 求 向 量 元 素 的 果 积 积 
maxf) 求 向 量 元 素 的 最 大 值 
minf ) 求 向 量 元 束 的 最 小 值 
sort() 对 疝 量 元 素 的 排序 探 作 
length() 坦 调 向 量 的 维 数 
癌 其 函数 也 可 以 作用 于 扎 阵 ， 此 时 其 作用 对 每 是 矩阵 的 列 向 基 ， 运 算 的 结果 是 一 个 
行 疝 量 ， 
此 外 , 各 种 统计 基 的 计算 函数 也 都 是 向 量 函 数 ， 这 部 分 函数 请 注意 后 续 内 容 中 的 介 
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绍 ， 或 参阅 本 书 附录 也 . 
【 例 1.13】 向 最 函数 的 功能 ， 
有 = [2，4,8,3;2，4,8,7i11,2,3;2,4,7,5;2,2,8,6] 
xlength = length(R) 呈 求 入 的 列 向 量 的 长 度 
xsort = Sort() 生 分 别 将 A 的 各 列 元 索 从 小 到 大 排序 
Yg9o = Suaft 只 ) 名 分 别 求 丰 的 各 列 元 素 的 和 


上 述 指令 的 运行 结果 是 : 
了 = ， 
2 4 S 3 
2 4 台 了 
1 1 2 了 
2 4 7 5 
2 2 8 
XLength = 
5 
XSOIt 三 
主 1 2 3 
2 2 了 3 
2 1 8 5 
之 | 8 二 
2 如 吕 了 
XSU 了 和 三 
b 5 33 24 
1.2.2.3 和 抢 阵 函数 


设 了 是 MATLAB 的 矩 竹 范 数 ， 即 当 广 作用 于 矩阵 4( 即 函数 的 自 变 最 是 矩阵 ) 时 ， 
苯 钳 线性 代数 中 有 关 和 矩阵 运算 的 规则 . MATLAB 的 炬 阵 函 数 按 其 作用 可 区 分 为 ， 

钙 扎 阵 生成 与 处 理 函 数 ; 

四 抢 阵 计算 与 线性 方程 组 解 算 函数 ， 

抢 阵 生成 与 处 理 函 数 在 统计 数据 处 理 中 比较 常用 , 在 1.1.1 节 对 矩阵 生成 函 教 有 部 
分 介绍 ,这 里 再 介绍 几 个 矩阵 处 理 函 数 ; 

函数 ”功能 描述 
reshapet) 改 谈 婚 阵 的 型 (将 拭 降 拉 直 为 向 本 ,或 扯 反 ) 
ftiplr() 去 市 翻 半 趣 阵 





flipudfy 
rot90{ ) 
trilf) 
triuf ) 
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上 下 翻转 起 陈 
90" 资 转 拭 际 
取 算 阵 的 下 三 谓 部 分 
取 趣 阵 的 上 三 角 部 分 


在 矩阵 计算 与 线性 方程 组 解 算 孜 数 中 ,统计 数据 处 理 常用 的 有 ， 


菌 数 
sizet 
dett) 
rankf ) 
notimf 
记 wYf) 
Pinv() 
eig 人 
eigst 


功能 描述 

求 和 红 阵 的 行 与 列 的 维 数 

未 和 姑 陈 的 行列 式 

求 和 矩阵 的 身 

求 埠 阵 的 范 数 

求 起 陈 揭 证 起 陈 

求 趣 阵 的 广义 逆 红 阵 

求 给 陈 的 特征 值 与 特征 向 芋 

求 埠 阵 某 此 转 定 的 (如 最 大 ) 特 征 值 芝 相应 的 转 征 向 量 


【 例 1.14】 矩阵 函数 的 功能 . 

及 = [2,4,8;2,8,7id4,2,3] 

an= SizefA) 多 求 直 阵 的 行 与 列 的 维 数 

S8 = reshape(, 1,9) 外 将 给 阵 六 的 各 列 首尾 连接 [ 拉 相 ) 成 行 向 量 ssf1x9 婚 隆 ) 
JR = reshapefts6,3,3) 宝 用 向 重 ss 构 进 一 个 3X3 超 阵 AA， 注 意 与 A 比较 
[V,D] = eigs(R) 机 未 夫 陈 入 的 特征 值 ( 站 ) 及 相应 的 单位 正 交 特 三 向 量 (V 


上 述 指令 的 运行 结果 是 ， 
下 三 
2 和 昌 
之 日 了 
1 2 3 
mm = 
| 3 
SS 一 
2 了 了 
了 RAR = 
2 号 
2 吕 了 
1 2 3 
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一 0.5449 0.7955 一 心 .9561 
一 0.8002 一 0.5488 一 0.0161 
一 .2507 .0.2509 0.2924 
DT = 
11 ,5555 0 0 
0 .8241 0 
0 日 一 .3795 


1.3 数据 图 形 化 的 常用 指 舍 与 图 形 的 简单 修饰 


在 统计 分 析 中 将 教 据 图 形 化 ， 能 够 使 数据 所 承载 的 信息 生动 、 直观 地 展示 出 来 . 
MATLAB 的 语言 具有 十 分 强大 的 绘图 功能 ， 利 用 MATLAB 语言 的 绘图 指令 可 以 简捷 、 
自如 地 实现 统计 数据 及 分 析 结 果 的 图 形 化 , 这 里 我 们 仅 对 MATLAB 语言 数据 图 形 化 的 
基础 知识 作 简 单 介绍 ， 


1.3.1 数据 图 形 化 的 常用 指令 


1.3.1,1 数据 图 形 化 的 几 个 常用 指令 简介 

MATLAB 语言 的 绘 儿 指令 十 分 丰富 , 这 星 仅 介绍 几 个 数据 图 形 化 最 基本 的 指令 

(1) Pie 指令 

【调用 格式 】 pie(7，ezplode) 

【动能 】 绘制 由 数据 向 量 Y( 表 示 各 个 因素 所 占 的 百分比 ) 所 定义 的 圆 饼 图 ， 

[参数 说 明 ] 参数 explode 是 一 个 与 y 的 维 数 相同 的 由 数字 0 和 1 构成 的 向 量 ， 其 
作用 是 当 其 某 个 元 素 为 1 时 ， 将 对 应 的 扇形 从 闭 饼 图 形 中 分 离 出 来 . 

参数 explode 可 以 缺 省 . 

【扩展 】 指令 pie3 绘制 三 维 立 体 贺 儿 图 ， 调 用 格式 与 pie 相同 ， 

(2) bar 指令 

【调用 格式 】 bar(z，Y，“option ) 

【功能 】 绘制 以 向 量 x 的 各 个 元 素 为 构 坐标 ， 以 向 量 y 的 各 个 对 应 元 素 为 织 坐 标 所 
定义 的 条 形 图 ， 

[参数 说 明 】 向 量 x 可 以 缺 省 ， 此 时 x= 1，2，3，… 

在 x 合 省 时 ， 人 参数 obtion 取 值 为 stacked 时 绘制 暴 加 式 条 形 图 ， 以 抢 阵 y 的 各 个 列 
向 基 的 累加 值 为 各 失 形 条 的 织 华 标 ; 取 值 为 grouped 时 绘制 分 组 式 条 形 图 ,也 和 拖 阵 y 的 
第 上 行 数据 为 第 + 组 中 各 矩形 条 的 纵 坐 标 ， 
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参数 option 也 可 引用 颜色 和 参数， 基体 取 值 详 见 后 面 的 “图 形 的 篇 单 修饰 "， 指定 向 量 
x 时 ,cption 只 能 引用 颜色 参数 . 

【 扩 最 ] 指令 barh 绘制 水 平 放置 的 条 形 图 ,指令 har3 绘制 三 维 立体 的 重 直 放 冲 的 
条 形 图 ， 指令 barh3 绘制 三 维 立 体 的 水 平 放 暂 的 条 形 图 调用 略 式 均 与 bar 类 似 ， 

【3) plot 指令 

【调用 格式 】 plot(x， Y “option“) 

[功能 】 在 二 维 直 角 腻 标 平面 上 绘制 由 向 量 x 和 y 的 对 应 元 素 为 坐标 的 数据 点 或 
连接 各 个 数据 点 的 折线 ， 

【参数 说 明 】 疝 量 x 可 以 缺 省 ， 此 时 x= 1，2，3，…. 

参数 option 的 取 值 是 表示 线 型 、 数 据点 标记 、 颜 色 的 1 个 或 几 个 符号 ， 具 体 取 值 详 
见 后 面 的 “图 形 的 简单 修饰 "参数 option 可 以 缺 省 . 

【 扩 蝶 】 指令 plot3 绘制 三 维 点 线 图 ， 调 用 格式 与 plet 类 似 . 经 常 与 plot 指令 配合 
值 用 的 还 有 指令 line， 其 最 简单 的 调用 格式 是 line(x，7)， 功 能 是 绘制 出 由 向 量 x 和 y 的 
对 应 坐标 标记 出 的 数据 点 (z,，) 之 间 的 折线 ,通常 用 line 指令 为 blor 图 形 中 补充 、 梁 
加 辅助 线 ， 

指令 plot 和 line 还 有 其 他 更 为 细腻 的 调用 格式 ， 感 兴趣 的 读者 清查 阅 MATLAB 系 
统 帮 助 ， 

此 外 ，MATLAB 语言 还 提供 了 很 多 更 为 专业 的 统计 绘图 指令 ， 清 注意 后 续 内 容 中 
的 介绍 ， 或 参阅 本 书 附录 B， 
1.3,1,2 多 窗口 给 图 与 点 线 图 的 单 窗口 多 图 方法 

(1 放 窗 口 绘图 方法 

subplot 指令 能 够 将 当前 的 图 形 窗口 分 制 成 若干 个 子 窗口 ， 实 现在 每 个 子 窗口 分 别 
绘制 不 同 的 图 形 的 目的 指令 的 调用 格式 为 

Subp1otfa，zmn，P) 

其 荔 能 是 将 当前 图 形 窗 口 分 割 成 证 行 n 列 , 并且 现在 正 准 备 在 第 p 个 子 窗口 绘图 . m 和 
0 的 最 大 取 值 是 9， 即 最 多 允许 9x9 的 分 割 . 子 窗口 的 编号 是 从 1 至 mxn， 先 上 后 下 ， 
先 左 后 右 ， 撤 销 分 割 的 方式 是 运行 指令 clf 或 subplot(1, 1, 1)， 

(2) 点 线 图 的 单 窗 口 多 图 方法 

点 线 图 的 单 仿 口 多 图 方法 是 由 plot 指令 的 如 下 两 种 调用 格式 实现 的 ; 

BRBLot(x，7Z) 

这 是 一 种 简 本 的 调用 格式 ,矩阵 Y 的 行 ( 列 ) 维 数 必须 与 向 量 x 的 长 庆 相 等 ; 

BLot( xl YL1 option 17，x2，72, option 27，… ,xpiyn， “option nm) 

这 是 一 种 细腻 的 调用 格式 ,向量 xk 与 水 等 长 , k= 1，2，…，n( 不 同 的 k, 向 量 长 
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度 可 以 不 相等 )， 参 数 option_k 的 取 法 同 前 ， 

这 是 一 种 批 命令 式 的 实现 方式 ， 

还 有 一 种 追 如 式 揭 实 现 方式 ， 要 求 plot 指令 与 hold onyofL 指令 配合 使 用 ， 方 法 是 ; 

Plot(…) 

hold on 

Blet(…)} 

hold off 
这 是 因为 ,指令 plot 执行 时 首先 对 当前 图 形 窗口 清 屏 ， 然 后 绘制 图 形 . 因此 ， 在 图 形 窗 
口 只 保留 最 新 的 plot 图 形 . 在 当 前 图 形 窗 口中 追加 新 plot 图 形 ， 首 先 要 由 hold on 指令 
通知 系统 保留 当前 图 形 窗口 中 药 图 形 ，hold off 指令 的 作用 是 解除 hold on 指令 . 

【 例 1.15] 多 窗口 绘图 方法 (不 同形 式 药 条 形 图 )， 

Seer 杀 清 空 工作 内 看 

clE 光 昔 置 当 前 图 形 窗口 为 初始 状态 

中 = [15,35，10，20，20]; 

= [15,35,10720,20,15110,15,30]; 

subplot(2,2,1) 

baz(yl ce) 多 了 简章 来 形 图 

subplot(2,2,2) 

bar( 8 grouped' ) 贡生 直 放置 的 分 组 式 条 形 图 

subE1ot{2,2，3) 

barhfy2，“stacked“) 后 水 平 效 置 的 累加 式 末 形 图 

subplot(2,2，4) 

bar3(Y2， "9rouped“) 乞 稚 直 放 置 的 三 维 主 体 条 形 图 

上 述 指令 揭 运 行 结果 见 图 1.1， 


1.3.2 图 形 的 简单 修饰 


在 绘图 过 程 中 ， 为 使 图 形 更 加 美观 、 易 读 ， 对 图 形 进行 一 些 简单 的 修 儿 是 必要 的 ， 
1.3.2,1 点 线 图 中 的 线 型 与 数据 点 的 标记 ， 图 形 中 的 颜色 


绘制 点 线 图 时 ， 可 以 根据 需要 对 线 型 、 数 据点 标记 及 其 颜色 作出 选择 . 
(1) 线 型 与 参数 取 值 
线 型 与 参数 取 值 见 表 1.3， 
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围 1.1 事 官 局 同 图 示例 | 不同 枉 或 的 击 司 图 ] 
表 1 嫩 型 与 电 黎 职 慎 表 





On 
(2 数据 点 天 短 与 大 教 取 值 
数据 点 束 状 与 和 数 取 值 见 表 1.4， 
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SUbplot(3,1,I)》 
Blot(zyyy“s- ,a) 先 用 洋红 色 正 方形 绘制 指数 画 数 数据 点 ， 并 用 点 划 线 连 插 数据 


subplotf3,1,2) 

Blet(zs, BR(1 :)，z,E(2,:)，“8g7，2yB(3,:) er) $ 绘 制 由 算 阵 世 定 尽 的 三 组 三 前 
琐 数 的 图 形 ， 分 别 指定 数据 点 形状 、 线 型 和 颜色 

SubPleot{t3，1，)》 

Blot(fz,B) 包 绘 制 由 趣 阵 了 定义 的 三 组 三 角 画 数 的 图 形 ， 末 统 自 动 处 理 

上 述 指令 的 运行 结果 见 图 1.2. 




















图 1.2 点 线 图 的 个 饰 与 同一 密 日 条 图 画 法 示例 


1.3.,2.2 图 形 的 标记 

图 形 的 标记 主要 包括 下 列 内 容 : 设 壮 图 形 标题 ,设置 坐标 轴 和 名称， 添加 图 例 ， 添 加 
注释 文字 . 下 面 介 绍 相关 指令 ， 

《1) titie 指令 

【调用 格式 】 t 计 lef string ) 

【功能 】 设置 图 形 标题 ， 

【说 明 】 在 所 画图 形 的 最 上 端 显示 说 明 该 图 形 标题 的 字符 串 sding， 

《2)》 xlabelyylabel 措 令 

【调用 将 式 】 

Xlabelf string“) 
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7label( string ) 

【功能 】 设置 似 标 办 名 称 . 

【说 明 】 xlabel( string' ) 指 令 将 字符 串 string 水 平 放 置 于 横 轴 下 方 ， 以 说 明 横 输 数 
据 的 意义 ;， ylabelf 'string") 指 令 将 字符 串 string 垂直 放置 于 轴 堪 侧 ， 以 说 明 维 轴 数 据 
的 意义 ， 

(3) legend 指令 

【调用 格式 】 legend(* stringt1 ”string27， string3，… option) 

【功能 】 话 加 图 例 ， 

【说 阴 】 为 图 形 按 绘图 的 先后 次 序 ， 用 对 应 顺序 的 字符 串 string 涨 加 图 例 ， 参 孝 
option 可 以 省 略 ， 此 时 图 例 自 动 放置 在 图 形 视 窗 之 内 , 当 option= - 工时， 表示 强行 将 图 
例 放 置 到 图 形 视 窗 之 外 ， 

{4) text 指令 

【调用 格式 】 text(z,y, string cs) 

[功能 】 添加 注释 文字 ， 

【说 明 ]】 在 图 形 的 指定 坐标 位 置 (x，y) 处 ， 深 加 由 字符 串 string 所 给 出 的 注释 文 
字 , es 是 可 选 的 引用 参数 ， 如 果 不 给 出 该 选项 , 则 (x，7) 仅 标的 度 基 单 位 与 图 形 中 数据 
单位 一 致 ; 如 果 给 出 该 选项 ， 则 (x， 史 坐标 表示 规范 化 图 形 窗 口 的 相对 坐 妹 ， 其 变化 范 
围 是 0 一 ! 的 实数 ,图形 窗口 的 左下 角 坐 标 为 (0，0),， 右上 角 吾 标 为 (1，17. 

在 使 用 上 述 标记 指令 时 ， 可 以 对 字符 串 string 所 给 出 的 文字 字号 的 大 小 进行 控制 ， 
其 设置 方法 是 , 在 字符 串 string 所 给 出 的 注释 文字 的 前 面 ( 单 引号 内 ) 添 加 控制 参数 
AN fontsizelnumber| ，number 的 取 值 为 整数 ， 缺 短信 为 10. 

【 例 1.17] 图 形 中 标记 的 设置 ， 

心志 aa 

二 

=D:piA750:2 + 85; 

Y= [sin(x); sin(2+x);cosfx)]; 

BLet(x,Y) 

titlef \ fontsizef18} 三 角 琐 数 图 像 *) $$ 设 置 标题 

zlabal{”\ fontsizef12) 缴 度 值 *) 上 设 置 横 轴 说 明 

Ylabel(”″\ fontsizef16} 丁 数值 *) 多 设 置 如 轴 说 明 

Jegend( “SintX) “slnf2x)7， “cosfz)"，- 工 ) 驯 设置 图 侈 

textt0.8v0.71，”\ fontsizef12}<-sinfxz) 和 cos(x) 在 rd 的 交 志 *) 龟 设 置 注释 

上 述 指令 的 运行 结果 见 图 1.3. 
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1.4 运算 流程 的 控制 与 指 他 集 的 画 数 化 


1.4.1 运算 流 释 的 控制 


《tiy forend 循环 结构 
【语法 】 
EOF 工 = 日 : 厂 : 二 
Commands >> 
ap 坟 
[说 明 】 for 循环 结构 的 执行 与 C 语言 、VB 语言 相似 ，i 为 循环 变量 ，。 为 循环 初 


值 , k 为 步 长 , b 为 循环 终 值 ; commands 为 循环 体 ， 


{2) 证 send 分支 结构 
【语法 I】 
证 扫 expression > 

忌 Commands >> 
nd 
【语法 工 ] 
证 过 ezpression > 

忌 Comaands 1 > 
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如 | 有司 
< comuamnds 2 > 
enf 
【 谱 法 可] 
让 女 expression_1 > 
ouhantg 1 > 
硬 上 5 计 人 女 SZPESSSi1ODn 2 六 
< commandSs_ 了 > 
三 了 全 克 
挟 COSTdS kk 人 > 
mn 可 ， 


【说 明 】 分 支 结构 的 执行 与 语言 、VB 语言 相似 ，expression 是 关系 或 远 辑 判断 语 


【 例 1.18] 运算 流程 的 控制 示例 ( 求 一 个 数 的 绝对 值 )，“ 
xs [一 间 ,2， 0 0.2]; 
xbas =【[]; 多 创建 一 个 存放 绝对 值 的 动态 效 姐 { 不 指定 维 数 的 空 向 量 ) 
tor i = 1:]lengthtx) 
证 玫 (>0 
xzX = fi 车 如 果 这 个 数 昨 正 数 ， 则 不 变 号 存 人 临时 蛮 量 xx 
1Seiti xfti)<0 
xx = -xi)r 和 否则 ， 如 果 这 个 数 是 负数 ， 则 变 号 存 人 腹 时 变量 xx 
由 ] 上 认 
zz=0; 争 香 则 ， 和 将 日 存 信 申 时 赛 量 xx 
全 了 过 
zhbas = [xbas,xx]; % 将 当前 败 时 密生 xx 中 的 数 序 入 动态 数组 xbas 
nd 
xy mbag 刷 显 示 数 及 其 绝对 人 慎 


上 述 指令 的 运行 结果 是 ， 
x = 
一 属 .2000 姓 0.2000 
xbas = 
.2000 0 中 .2000 


注意 ，MATLAB 系统 提供 了 求 一 个 实数 的 绝对 值 (或 复数 的 模 ) 的 计算 指令 abs， 
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MATILAB 系统 还 提供 了 其 他 几 种 入 制 程序 流程 的 指令 结构 ,包括 while-end 逢 环 结 
构 ，switeh-ease-end 开关 结构 和 try-eateh-end 探 试 结构 . 关于 这 几 种 指令 结构 的 诺 法 各 
使 用 技巧 等 ， 请 读者 参阅 MATLAB 系统 帮助 或 其 他 MATLAB 基础 教程 


1.4.2 指令 集 的 本 数 化 


在 前 面 的 各 个 例子 中 ,无论 是 计算 还 是 绘图 ， 我们 都 是 根据 问题 的 需要 按照 一 定 的 
顺序 使 用 有 关 指 令 ， 这 些 指令 构成 了 解决 某 一 特定 问题 的 指令 集 ， 可 以 将 这 类 指令 集 保 
存 为 MATLAB 语言 的 可 执行 文件 ， 称 为 M- 脚 本 文件 . 这 时 ,文件 各 就 变 成 了 一 条 可 执 
行 的 (用 户 自 定义 ) 指 令 , 久 后 著 再 次 执行 这 一 指令 集 ， 只 需 在 指令 窗口 或 Notebook 环 
境 中 键入 这 个 文件 名 并 运行 即 可 ，M- 靶 本 文件 运行 中 所 处 理 的 数据 及 返 可 数 据 均 在 
MATLAB 的 工作 内 存 (Workspace) 中 . 这 种 做 法 适宜 小 规模 计算 或 编写 大 规模 计算 程序 
的 主 程序 ， 

如 果 问 题 的 规模 较 大 ， 结 构 化 程度 高 ， 相 关 算 法 在 同类 问题 中 可 重复 使 用 时 ， 则 应 
当 对 相应 的 MATLAH 指令 集 由 funetion 指令 进行 函数 化 处 理 ， 规 划 和 确定 输入 /输出 参 
数 ,， 此 类 可 执行 文件 称 为 M- 函 数 文件 ,通常 用 于 子 程序 的 编写 . 用 户 自 定义 的 M- 效 数 
问 MATLAB 系统 函数 一 样 ， 可 以 在 需要 时 重复 调用 . 与 M- 脚 本 不 同 ，M- 函 数 运行 中 所 
处 理 的 数据 及 返回 数据 ， 除 预先 定义 的 全 局 { 输 入 /输出 ) 变 量 在 MATLAB 的 工作 内 存 
(Workspace) 中 ， 其 余 均 在 调用 该 函数 时 系统 自动 开辟 的 临时 的 局 部 变量 空间 中 ,该 尔 
数 运行 结束 时 系统 自动 删除 这 一 临时 的 局 部 变量 空间 . 

ML- 脚本 文件 与 M- 函 数 文件 是 MATLAB 语言 程序 设计 的 两 种 源 程 序 文件 畏 式 ， 统 
称 M- 文 件 , 文件 的 扩展 名 均 为 m. 

M- 文 件 的 编写 通常 在 MATILABE 程序 编辑 器 (Editor) 中 进行 . 单 击 *New M-File" 图 
标 (或 菜单 选项 )， 即 可 开启 程序 编辑 器 . 若是 在 Notebook 环境 中 已 经 编写 出 M_ 文 件 ， 
则 可 将 文件 中 的 全 部 指令 复制 /粘贴 到 程序 编辑 器 ， 调 试 无 错误 即 可 保存 ， 

下 面 简要 介绍 M- 文 件 的 编写 规范 ， 

ML- 脚 本 文件 和 M- 冰 数 文件 的 编写 规范 , 除 M- 函 数 文件 必须 要 有 由 *function” 引 导 
的 函数 申明 行 外 ， 其 他 要 求 一 样 . 下 面 介绍 MATLAB 系统 规范 的 M- 函 数 文件 编写 要 
求 , 遵循 这 一 要 求 的 用 户 程序 文件 可 以 纲 人 MATILAB 系统 进行 管理 ， 

阔 数 申明 行 funetion[ 运 回 宰 量 列表 = funname( 和 输入 变量 列表 ) 

HI (关键 词 ) 行 $FUNNAME( 大 写 体 画 数 名 )， 关 键 词 猫 述 的 函数 功能 

在 线 帮 助 文本 区 % 输 入 、 答 出 变量 的 官 义 ， 调 用 烙 式 说 明 ; 算法 说 明和 车 

隔 高 行 ”无 任何 标记 前 空 行 

编写 与 修改 记录 % 编写 者 姓 训 ,编写 日 期 ， 修 改 日 期 区 

隔 高 行 扰 任 何 标 证 的 空 椰 


莫 1 赣 M4TL4B 数据 处 理 人 门 。 和 3 站。 


函数 体 MATLAB 命令 集 ( 为 增强 程序 的 可 读 性 ， 在 函数 体 中 可 配置 适当 
的 空 行 和 驹 引导 前 证 赫 ) 

{ 例 1,19] M- 函 数 文件 的 编写 (改写 例 1.18 中 的 指令 集 为 M- 函 数 文件 ， 文 件 名 为 
bykabs) 

在 例 1.18 的 指令 集中 ,明确 向 量 x 为 输入 参数 ， 向 量 xabs 为 输出 参数 . 于 是 ,由 指 
令 fonetion 定义 M- 函 数 文件 bykabs 的 规范 化 过 程 是 : 

tunction xabsg = bykabs(x) 

多 BYKABS 西数 的 功能 是 求实 数 向 量 的 每 一 个 元 束 的 绝对 导 

多 调用 格式 xabs = bykabs(x) 

和 算法 当 x>0 时 |z| =z 当 x=0 时 |xl=0, 当 xc0 时 |z| = -Kx 

多 输入 参数 于 是 待 求 绝对 值 的 实数 向 量 

旬 精 出 参数 xabs 是 向 量 x 的 绝对 值 向 量 


务 色 研 科 篇 写 于 2008 鞋 1 月 340 日 


xabs= []; 
tor =s 工 ;lengthfx) 
证 区 了 )> 站 
xx= xf(i)i 
折 1561E CIL) < 忆 作 
xxr= 一 和 (); 
加 
XXX 人; 
nd 
xaba = fxabs, xx] ; 
an 革 
保存 这 个 M- 函 数 文件 到 用 户 由 己 的 工作 目录 下 或 MATLAB 系统 根 自 录 下 的 work 
子 目录 中 ,文件 名 为 bykabs.m. 这 样 , M- 范 数 文件 bykabs 就 纳入 了 MATLAB 系统 的 管 
理 之 中 , 对 于 后 来 希望 使 用 这 个 函数 的 用 户 , 可 以 运行 指令 
doe bykabs 
通过 MATLAB 系统 的 Help 窗口 ,可 以 了 解 该 M- 函 数 文件 的 功能 、 调 用 方法 、 算 法 说 
明 、 参 数 意义 , 使 用 时 ， 只 需 按 正 确 的 调用 格式 调用 这 个 函数 鲜 可 , 如 
1ear 
x=[-2,2,0,3.5， ~2.3]; 


*。 8 中， 发 理 统 计 与 M4d774 下 履 据 处 理 








xabs = bykabgtz) 

上 述 指 令 的 运行 结果 是 ， 

Xabs = 

2.0000 2.0000 有 3.5000 2 3000 

需要 说 明 的 是 ， 此 例 简 单列 了 只 有 一 个 输入 参数 和 一 个 输出 参数 的 情形 . 若 有 立 个 
输入 参数 和 mn 个 输出 参数 ， 全 束 和 和 生 人 

funetion [71,72,…, 加 | = Fanyane(zl,x2，…，zxan) 
参数 的 顺序 按 其 重要 性 和 是 否 可 以 缺 省 排列 ， 重 要 的 在 前 ， 可 以 缺 省 的 党 后 


1.4.3 M- 文 件 的 避 护 


M- 脚 本 文件 和 M- 函 数 文 件 均 由 ASCf[ 裙 构成 ， 可 以 由 性 何 一 种 纯 文 本 文件 编辑 器 
查看 或 修改 文件 的 洗 代 税 . 因此 , 为 防止 有 入 搜 自修 改 这 个 文件 ,: 可 用 伪 代 码 编译 转化 
为 二 进 制 代码 ,不 仅 将 文件 保护 起 来 ,还 可 以 提高 程序 的 运行 速度 . 

MATILAB 语 言 的 擅 编 译 生成 的 文件 称 为 P 代码 文件 ， 即 文件 的 扩展 名 为 p. 

生成 下 代码 文件 的 指令 是 pcode， 其 使 用 方法 是 : 

Becode Funyame 一 inpPlace 
即 在 M- 函 数 文 件 FunNarme.m 所 在 的 目录 上 生成 FunName.p， 

例如 ,前面 我 们 将 bykabs,m 文件 保存 在 当前 工作 路 径 “E: \ 数理 统计 \m 文件 "下 
( 即 MATI.AB 系统 窗口 的 “Current Direetory" 被 设置 为 "下 数理 统计 Am 文件 ), 则 运 
行 指令 

Beode bYkabs.n - inplace 
就 可 在 “E:\ 数 理 统计 \m 文件" 下 生成 一 个 bykabs.p 文件 ， 再 调用 函数 bykabs 时 ， 系 
统 运行 的 是 bykabs.p， 而 不 是 bykabs.m， 

当 需 要 查看 内 存 中 了 P 代码 文件 列表 或 清除 内 存 中 的 P 代码 文件 时 , 分 别 运 行 下 列 指 
令 : 

inmem 列 出 内 存 中 所 有 的 了 代码 文件 

Clear fungame 清除 内 让 中 FunName.p 文件 

clear functione 清除 内 丰 中 所 有 的 P 代码 文件 


习题 1 


1. 瑟 出 下 面 MATLAB 语 向 的 运行 结果 (显示 )， 
A= [1,2,3;4,5,6;7.8,0]; 

上 (Js A(: 3) 

sum 和. 关 且 ) 
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B= [A,ones(3,2)] 
2. 编写 一 个 10X15 趣 阵 的 mat 数据 文件 ， 保 痛 到 你 的 工作 牙 径 下 ， 然 后 使 用 load 

指 信 读 入 院 个 夫 降 ， 

$. 写 出 下 列 语 身 的 运行 结果 (显示 )， 

a=[123;4567 各 9 ; 

ai=aft2,，:) 

到 三 打 :2) 

个 = 区:3， 一 1:2) 

击 =fta;al] 

4. 把 图 形 窗 吕 分 草 成 两 个 子 窗口 ， 分 别 画 出 下 列 曲 线 ， 斌 写 出 绘图 指 令 集 ， 

(1) 向 重 yL= [34,27,21,18] 所 定义 的 团 饼 图 ， 并 将 第 2、 第 4 块 对 应 的 扁 形 从 贺 饼 
图 形 中 分 网 出 来 ; 

(2) 直 阵 邮 = [20,15,35;30,20,15;25,15,30] 水 平 放置 的 累加 式 末 形 图 ， 

5. 在 区 间 [0,2x*Ppi] 画 sinfx) 的 图形 ， 并 添加 图 形 标记 “ 自 梳 量 x"“ 画 数 天“sinfx) 的 
图 偿 ”， 

6. 设 x=f0:0.1:2x* ij， 在 同一 窗口 依 状 画 出 =sinfz2), =sin(z)eos(z) 的 图 
像 . 要 求 : 第 一 条 曲线 为 红 记 点 线 ， 旬 二 乏 曲线 为 益 绿 允 庶 线 . 斌 写 出 续 图 指 今 全， 并 
用 你 可 以 想到 的 方法 在 上 述 图 形 中 加 入 各 种 解释 和 说 明 的 文字 ， 


7 了. 篇 号 M- 膨 本 文件 ; 对 二 =12,…,10， 家 za=cos| 84 的 值 ， 
8 编写 M- 函 数 文件 ， 对 任意 zi z? 抱 下 求 ziz)=100(zy 一 了 +(1 一 二 
的 西数 ， 调 用 这 个 了 面 数 ， 未 成 2,3) 的 值 ， 


9 编 马 M- 函 数 文 件 : 输入 一 个 台 XP 矩阵 ， 有 返回 乱 阵 元 素 的 最 大 值 及 其 所 处 前 位 
冲 ， 央 后 随机 生成 一 个 3X4 夫 件 验证 函数 的 功能 ， 
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第 2 章 统计 分 析 的 基本 概念 、 工 具 与 推理 基础 


变量 与 数据 是 统计 分 析 的 基本 对 象 ， 统 计量 是 统计 分 析 的 基础 性 工具 ， 而 抽样 分 布 
则 构成 统计 推理 的 理论 基础 . 本 章 简 要 介绍 变量 与 数据 、 统 计量 、 抽 样 分 布 的 基本 内 容 
以 及 相关 的 MATLAB 函数 ， 


2.1 变量 与 数据 的 基本 概念 


2.1.1 变 重 及 其 概率 分 布 


任何 一 个 统计 问题 都 要 有 了 明确 的 研究 对 象 ， 称 研究 对 象 的 全 体 为 总 体 ， 每 个 具体 的 
对 象 称 为 总 体 中 的 个 体 ， 

例如 ， 在 研究 某 大 学 一 年 级 大 学 生 的 身体 素质 时 ， 全 体 大 学 一 年 级 新 生 就 是 总 体 ， 
然而 ， 人 们 用 统计 的 方法 研究 一 年 级 大 学 生 的 身体 素质 , 关心 的 往往 是 每 个 学 生 ( 个 体 ) 
的 某 项 反映 人 的 身体 素质 的 指标 ， 特 别 是 可 数量 化 的 指标 ， 如 肺活量 ， 关 心 这 一 数量 化 
指标 的 指标 值 在 群体 中 出 现 的 规律 . 这 个 数量 化 指标 才 是 统计 研究 的 真正 总 体 ， 通 常 称 
之 为 统计 总 体 ， 

由 此 可 以 看 出 ,总 体 的 概念 具有 两 重 性 ; -是 总 体 的 实体 性 ， 即 总 体 是 指 研究 对 象 
物质 实体 的 集合 ; 另 - -是 指标 性 ， 即 统计 分 析 所 关注 的 是 定义 在 物质 实体 上 的 可 数量 化 
的 指标 . 

显然 ， 在 对 这 个 数量 化 指标 进行 观测 时 ， 由 于 每 个 个 体 的 出 现 是 随机 的 ， 折 以 这 个 
数量 化 指标 是 一 个 随机 变量 奈 . 总 体 概念 的 要 生 是 : 意 体 是 一 个 随机 变量 . 因此 ， 在 后 
而 的 讨论 中 往往 将 总 体 称 为 (随机 ) 变 量 . 统计 分 析 的 根本 目标 就 是 通过 对 变量 的 观测 ， 
指出 变量 的 概率 分 布 及 其 数字 特征 . 

总 体 不 仅 可 以 用 随机 变量 表示 ， 也 可 以 用 它们 的 分 布 函数 F(z) 表 示 . 有 了 这 个 观 
点 ， 就 可 以 在 概率 论 的 基础 之 上 展开 统计 研究 . 两 个 总 体 即 使 其 所 含 个 体 的 性 质 根本 不 
回 ， 只 要 有 统一 的 概率 分 布 , 则 在 统计 学 中 就 视 为 同类 总 体 . 

总 体 类 型 即 变量 的 概率 分 布 类 型 ， 常 见 的 有 : 正 态 分 布 ， 指数 分 布 , 均匀 分 布 ，8 分 
布 ，7 分 布 ， 对 数 止 态 分 布 ， 瑞 利 分 布 , 威 布尔 分 布 等 连续 型 分 布 ; 还 有 二 项 分 布 ， 消 松 
分 布 ， 几 何 分 布 ， 超 几何 分 布 ， 离 散 均匀 分 布 ， 负 二 项 分 布 等 离散 型 分 布 ， 为 后 续 讨论 
方便 ， 于 而 列 出 这 些 常见 分 布 类 型 的 数学 定义 (概率 密度 函数 ) 及 其 数学 期 望 与 方差 ， 见 















































第 2 和 章 统计 外 新 的 基本 梳 念 、 工 具 与 推理 基础 。， 区 
表 2.1， 
衷 2.1 常见 概率 分 布 类 型 的 数学 定义 、 数 学 期 户 与 方 闲 
分 布 类 型 分 布 的 教学 定义 { 嘱 度 画 赦 ) 数学 期 思 方 ” 关 
__ 1 -全 
正太 分 机 Aero ， 导 
-coc< 了 cr+eo，-oo 区 poo gl 
开 十 了 于 
指数 分 布 0 9 
王 汪 0 有 EN 
__ 1 
均匀 分 布 /re 人) 2 5 
ac | 
天 |a, 芍 = 去 12) 地 
有 分 布 记 ,三 [ 吕 和 一 一 一生 一 一 -: 
0Szs1，a,50 | (e+t+ (+ 
分 机 所 16) 二 寺 了 厅 oz) 要 
了 0， 万 六 
FF” 
对 才 正 态 (zlma)= 。 ee 
分 布 也 
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负 利 分 布 
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续 甫 2.1 

分 布 次 型 分 布 的 数学 定 久 (密度 函数 》 数学 期 望 证 莹 
因 [| 抽 昌 
Fr,EKa)= -一 江 To wz) 下 攻克- 开 于- 
超 几 笨 分 布 “| 相信 只 
机 
桩 ,天 ai 人 Nm 王 聘 天，) 
离 区 均匀 FlzlHN)= Ada mt 人) Ni -1 
芝 二 2 
分 布 NENY 
rz 一 1 下 亚 ， 

负 二 项 分 布 Fa 的 =| 轴 和 (1 一 坟 ) 0) 2 





0 入 部委 1 


关于 概率 分 布 及 其 数字 等 征 的 详细 讨论 属于 概率 论 的 范畴 ， 这 里 仅 就 MATLAB 对 
上 述 内 容 的 描述 作 简 单 介绍 ， 

MATILABR 为 常见 的 概率 分 布 提供 了 下 列 5 类 函数 ， 

包 概率 密度 丽 数 (pdf), 求 随机 变量 X 在 z 点 处 的 概率 密度 值 ， = 5(z)， 

四 暴 积 分 布 函数 (cdf) ,， 求 戎 机变 基 和 在 z 点 处 的 分 布 函 数值 


F(z) = PIX 扫 zj = | (ud 


昌 赣 累 积分 布 函数 (inv), 求 随 机 变量 和 在 z 点 处 的 分 布 函数 的 反 轴 数 值 x = 
FI 六， 

昌 汐 值 与 方差 计算 函数 (stat) . 求 给 定 分 布 的 随机 变量 X 的 数学 期 望 玉 (X7 和 方差 
Yatf 克 )， 

贸 哆 机 数 生成 函数 (rnd) ， 模拟 生成 指定 分 布 的 样本 数 提 ， 

基体 函数 的 命名 规则 是 ， 

函数 名 = 分 市 类 型 名 称 十 函数 类 型 名 称 (pdf、cdf、invw、stat、rnd) 

其 中 ， 分 布 类 型 名 称 如 下 ， 





分 布 类 型 MATILABH 名 称 
正 态 分 市 ”norm 
指数 分 市 ”exp 
均 习 分布 unif 
B 分 市 “beta 
7 分 市”gam 
对 数 正 态 分 布 logn 
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瑞 利 分 布 tayl 
威 市 尔 分 布 ”weib 
二 须 分 布 hbino 
消 松 分 布 ”poiss 
几何 分 布 geo 
超 几 何 分 市“hyge 
离 数 均 习 分 布 anid 
负 二 项 分 市 nbin 
例如 ，nermpdf、normedf、norminr、normstat 和 normrnd 分 别 是 正 态 分 布 的 概率 刻 
度 、 累 积分 布 、 逆 累积 分 布 、 数 字 特 征 和 随机 数 生成 郧 数 ， 
关于 这 5 类 函数 的 语法 ,请 详 见 本 书 附录 B， 或 参见 文献 [4]. 快捷 的 学 习 可 借助 
MATLAB 的 系统 帮助 ， 通 过 指令 doc 非得 具体 函数 的 详细 信息 ， 语 法 是 ， 
dos 所 函数 名 > 
关于 本 书 中 涉及 的 统计 分 析 指 令 的 深入 学 习 均 可 按 此 提示 进行 ， 后 文 不 再 缆 述 ， 
正太 分布 在 统计 分 析 中 占有 中 心地 位 . 下 面 对 正 态 分 布 的 竹 质 进行 直观 回顾 
[ 例 2.1】 绘制 正 态 分布 的 密度 函数 、 分 布 丽 数 曲线 ， 并 求 均值 与 方 莽 ， 
Leat 
mu=2.5; 3igma=0,.6; 种 设 定 正 态 分 市 的 分 市 参数 凡 和 = 
X= (mn 一 4x85igma): 0,005: (mu+axsignma); 和 证 定 绘图 区 域 士 4 
了 = noralpdft{xrmur sigma)7 名 计 和 站 与 x 对 应 的 概率 密度 慎 
二 = DOzmcdtfzymursigma)y 等 计 算 与 xx 对 频 的 分 布 画 数值 
Blet(xry -gz :b) 续 制 正太 分 市 的 凡 度 了 夯 数 、 分 布 画 数 曲 线 
[MYV] = noznstat(fau sigma) 与 求 数学 期 望 与 方差 的 以 
legendf pdf edt 7，- 1) 由 添 加 图 例 
上 述 指 令 的 运行 结果 见 图 2.1 及 ， 
X = 
2.5000 
V = 
0.3600 
从 图 2, 中 可 以 看 出 , 正 态 密度 曲线 是 关于 z = z 对 称 的 钟 形 曲线 (两 侧 在 “+e 
处 各 有 一 个 换 点 )， 正 态 累 积分 布 曲线 当 = =# 时 F(z)=0.5. 
【 例 2.2]】 正 态 分布 参数 对 密度 曲线 的 影响 (绘图 指令 集 M- 肢 本 文件 normplot 1 见 
本 书 附 录 C) ， 
从 图 2,2 中 可 以 看 出 , 产 决 定 了 图 形 的 中 心 位 置 ，c 决定 了 加 形 中 峰 的 陡 峭 程 度 ， 
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图 2,2 正 坊 分布 参数 对 密度 曲线 的 影响 


当 ve 较 大 时 ， 图 形 赵 于 平缓 ; 当 = 较 小 时 ， 图 形 趋 于 陡峭 . 也 就 是 说 ，r* 诀 定 了 分 布 的 中 
心 位 置 ，z 反映 了 分 布 的 分 散 或 集中 程度 ， 

[ 例 2.3】 正太 分 布 参数 上 和 au 对 变量 已 取 信 规 律 的 约束 
XML- 脚本 文件 normplot_2 见 本 书 附 录 C)， 

从 图 2.3 中 可 以 看 出 , 正 态 分 布 在 均值 上 处 密度 最 大 ， 即 正 态 随机 变量 X 最 有 可 能 
在 点 疡 附近 到 值 ; 在 上 两 侧 , + e 的 范围 内 取 值 概率 为 0.6826，+2c 的 范围 内 取信 概率 为 
0.9544，+3c 的 范围 内 取信 概率 为 8,9974， 虽 然 正 态 随机 变量 盛 可 能 在 整个 数 轴 上 取 值 ， 
但 是 其 取信 几乎 全 部 集中 在 区 间 [wz -3e，n+ 3c] 内 ， 统 计 学 称 之 为 “3c 准则 ”. 

【 例 2.4] 3c 准则 的 应 用 . 

已 知 调 量 值 Y 一 N(0.2，0.052)， 今 发 现 十 次 测量 中 有 一 个 数据 是 0.367， 间 是否 


35 准则 { 绘 图 指令 集 
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谊 2.3 正太 分 布 参数 对 密度 曲线 的 影响 


可 认为 异常 而 于 以 影 除 ? 

解 由 35 准则 知道 ,测量 值 以 超过 0.997 的 概率 在 0,2+0.05X3 之 间 ， 即 在 0.05 
与 0.35 之 间 . 由 于 0.367>0,.35， 故 应 剔除 这 个 数据 . 

在 自然 手 和 社会 领域 常见 的 变量 中 ,很 多 都 属于 用 正 态 分 布 刻画 的 范围 . 例如 ， 人 
的 身高 高 低 不 等 ， 但 中 等 身材 的 占 大 多 数 ， 特 高 或 特 矮 的 只 是 少 部 分 ,而 且 较 高 和 较 铸 
的 人 数 大 致 相近 . 又 如 ， 一 个 班 的 考试 成 绩 ， 很 好 和 很 差 的 人 数 都 不 多 ,多 数 处 在 中 间 
状态 , 但 以 一 个 平均 分 数 为 中 心 去 观察 ， 高 于 它 和 低 于 它 的 分 布 情况 相似 ， 等 等 . 进 一 
步 地 , 中 心 极限 定理 的 研究 表明 ,一 个 变量 如 果 受 到 大 量 微小 、 独 立 的 随机 因素 的 影响 ， 
或 者 说 ， 一 个 随机 变量 可 以 表示 为 若干 个 独立 随机 计量 之 和 , 那么 ， 这 个 变量 一 般 近 似 
为 一 个 正 态 变量 . 


2.1.2 变量 的 观测 与 数据 


总 体 是 一 个 随机 变量 (以 下 简称 为 变量 ),， 这 是 统计 学 的 一 个 基石 性 的 概念 人 们 对 
变量 的 认识 是 通过 对 变量 的 观测 实 理 的 ， 这 一 过 程 称 为 抽样 ， 

抽样 是 指 为 获得 有 关 变量 的 信息 ， 按 一 定 的 规则 对 变量 进行 的 观察 和 试验 . 抽样 的 
结果 称 为 样本 , 样本 规定 了 如 何 对 变量 X 进行 ” 次 观测 以 获得 关于 这 个 变量 相关 信息 
资料 ，= 称 为 样本 答 量 . 

理解 样本 的 概念 ， 关 键 是 理解 样本 的 两 阶段 性 ， 即 需要 理 清理 论 上 的 样本 和 样本 数 
所 的 联系 与 区 别 ， 

外 理论 上 的 样本 是 一 个 = 维 随 机 向 量 ( Xi， X2，…，X)， 人 们 对 变量 X 的 认识 是 通 
过 多 次 观测 实现 的 . 对 变量 X 的 第 ; 次 观测 记 为 X ，; = 1 2, …,z ， 容 易 理 解 ， 在 进行 
具体 的 观测 之 前 ， 世 也 是 一 个 随机 变量 . 因为 在 具体 观测 时 ， 可 以 对 这 个 个 体 进 行 观 
测 ， 也 可 以 对 另 一 个 个 体 进行 观测 ， 这 是 具有 随机 性 的 ， 也 就 是 说 X 的 取 值 具有 随和 机 
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性 , 将 各 次 观测 表示 为 一 个 向 量 ( Xi, X2，…, 和 )， 蚌 因为 在 对 变量 天 的 认识 过 程 中 需 
要 它们 发 挥 整 体 作 用 ， 

外 拜 本 数据 是 样本 的 一 次 观察 信 . 如 果 完 成 了 对 样本 (Xi，X2，…，, 和 ) 的 一 次 具体 
观测 ， 就 得 到 * 个 具体 的 观测 或 试验 数据 (zl, zz,，…,z,)， 称 为 大 本 的 一 次 观察 值 或 样 
本 数据 ， 简 称 为 数据 . 

样本 是 一 个 抽 销 的 理论 概念 ， 是 联系 数据 资料 与 变量 特征 的 桥梁 . 


总 体 ”抽样 的 设计 样本 抽样 的 实施 数据 


(8 民 量 ) 人 9 维 随机 和 量 ) (na 维 数值 向 量 } 


统计 描述 与 推理 (实现 从 个 别 到 整体 的 认识 ) 


在 实际 应 用 中 , 抽样 是 一 个 复杂 的 过 程 ， 需 要 进行 精心 设计 和 严谨 的 组 织 实 衣 , 在 
数理 统计 中 一 般 不 对 抽 磁 问题 进行 过 多 的 讨论 ， 只 是 翁 定 抽样 满足 如 下 的 基本 要 求 ; 磋 
本 的 各 个 分 量 Xi，X2，…， 和 ,相互 独立 且 与 变量 X 同 分 布 . 满足 这 一 要 求 的 抽 梯 称 为 
简单 随机 抽样 ,由 简单 随机 抽样 抽取 的 苦 本 称 为 简单 随机 样本 . 在 数理 统计 的 讨论 中 ， 
若 不 特别 说 明 ,“ 样 本 "一 词 均 指 简单 随机 样本 

样本 的 概率 分 布 是 统计 分 析 基 本 的 理论 依据 . 由 样本 所 满足 的 基本 条 件 易 知 ， 若 变 
量 X 的 分 布 函 数 为 玉 (z) (概率 函数 或 概率 分 布 律 为 p(z))， 则 称 X，X，，…, 和 为 来 
自 总 体 忆 (zj 或 (xz)) 的 样本 ， 记 为 天， 和 和 dz)( 或 加 (0z)， 并 且 样 本 
的 联合 分 布 函数 (或 联合 概率 函数 ) 为 


FUzih ray )》 一 ITF(n) (或 pf(ztza mr) = Iste 旋 ， 


由 此 可 见 ， 变量 的 概率 分 布 决定 了 样本 的 概率 分 布 ， 进而 也 就 决定 了 样本 数据 的 统 
计 规律 ， 也 就 是 样本 取 到 奉 本 数据 的 规律 , 统计 学 的 基本 思想 就 是 通过 烨 本 数据 统计 规 
律 的 这 种 规定 性 来 达到 认识 变量 的 目的 ( 反 向 应 用 ). 也 就 是 说 ， 通 过 对 变量 的 观测 以 获 
取 相 关 的 数据 信息 ,利用 变量 、 样 本 和 数据 之 问 的 内 在 联系 ,由 春 本 数据 去 推断 变量 的 
特征 与 变化 规律 . 简要 地 说 ,数据 是 认识 变量 的 基本 依据 . 

统计 分 析 的 方法 往往 受 变量 测度 性 质 的 制约 ， 而 变量 的 类 型 又 决定 数据 的 性 质 , 因 
此 ， 统 计 分 析 要 廊 慎 选择 与 变量 类 型 和 数据 性 质 相 适应 的 方法 . 

依 变量 测度 性 质 的 不 同 ， 变 量 可 以 区 分 为 如 下 三 种 类 型 

《1) 定性 变 章 (分 类 变量 ) 

对 变量 进行 观测 时 仅 可 作 类 属 的 判定 , 如 学 生 的 性 别 . 

《2) 顺序 变量 

对 变 基 进行 观测 时 仅 可 作 闫 序 的 比较 ,如 按 等 级 评定 的 学 生 考 查 成 绩 . 

(3) 定量 变 莉 
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对 变量 进行 观测 时 存在 一 种 可 数量 化 的 尺度 ， 在 这 个 尺度 下 可 以 确定 一 个 观测 值 与 
另 一 个 观测 值 数 量 上 的 差异 或 比率 关系 . 定量 变量 依 观测 是 否 存在 绝对 零点 可 以 进一步 
区 分 为 等 距 变 量 ( 无 绝对 零点 ) 和 比率 变量 (有 绝对 替 点 )， 如 学 生 考试 的 下 分 制 成 绩 ( 等 
距 变 量 )， 植 物 的 高 度 (比率 变量 )， 员 工 的 工资 金额 ( 比 认 变量 ) 等 . 

进而 ， 数 据 可 以 按 其 所 属 变量 的 不 同 而 分 为 定性 数据 、 顺 序数 据 和 定量 数据 , 

{1) 定性 数据 

定性 数据 是 事物 类 属性 ( 非 数 值 性 ) 的 描述 ， 从 属于 定性 变量 . 如 对 学 生性 别 变 景 进行 
观测 ， 男 性 吴 值 为 "1”,， 女性 赋值 为 “0”, 则 数据 0 和 !1 就 是 分 类 数据 . 分 类 数据 仅 可 以 按 其 
所 属 英 别 进行 计数 (统计 频数 )， 而 对 计数 的 结果 可 以 进行 加 法 (合计 ) 或 百分数 运算 ， 

{2) 顺序 数据 

虎 序数 据 是 事物 优 劣 属性 ( 非 数 值 竹 ) 的 描述 ,从 属于 顺序 变量 如 按 等 级 评定 的 学 
生 考 查 成 线 ， 对 某 门 课 程 优 秀 赋值 为 "5"， 和 良好 世 值 为 “4" 等 ， 则 数据 1，2，3，4，5 就 是 
顺序 数据 . 这 英 数 据 通常 是 按照 一 定 的 准则 测量 出 来 的 ,但 是 测量 准则 既 苑 绝对 零点 又 
无 相等 的 尺度 单位 ,如 果 甲 学 生 的 成 绩 被 评 为 “5"， 乙 学 生 的 成 绩 被 评 为 “4”， 我 们 只 能 
说 甲 的 成 绩 比 乙 的 成 绩 好 ， 但 说 不 出 甲 的 成 线 比 乙 的 成 绩 好 多 少 或 好 多 少 倍 . 也 就 是 
说 , 这 类 数据 只 能 进行 计数 和 大 小 的 比较 ,不 能 进行 加 、 减 、 乘 、 除 运算 ， 

{3) 定量 数据 

定量 数据 是 事物 量 的 属性 (数值 性 ) 的 描述 ,从 属于 定量 变量 . 包括 如 下 两 种 类 型 

@ 等 距 数据 , 从 属于 等 虐 变 量 的 观测 数据 , 如 按 百 分 制 评 定 的 学 生 考 试 成 绩 就 是 一 
个 等 上 距 变 量 ， 人 们 通常 认为 试卷 中 的 每 一 分 值 所 表征 的 、 对 学 生 在 该 试卷 范围 内 的 知识 
和 能 力 的 要 求 是 一 样 的 ， 因 此 由 试卷 测量 出 的 成 绩 儿 据 有 相等 的 尺度 单位 .如 果 甲 学 生 
得 80 分 ， 乙 学 生得 40 分 ， 比 较 时 我 们 不 仅 能 说 在 这 次 考试 中 甲 的 成 绩 比 乙 的 成 绩 好 ， 
还 能 说 出 甲 的 分 数 比 乙 的 分 数 才 40 分 ,但 是 我 们 不 能 说 甲 的 知 设 和 能 力 水 平 基 乙 的 2 
倍 . 即使 某 个 学 生 在 考试 中 得 了 0 分 ， 也 不 能 说 他 在 该 课程 中 没有 一 点 儿 知 识 和 能 力 ， 
因为 这 类 测量 数据 不 是 从 绝对 零点 计算 起 的 ， 它 仅 在 某 个 区 间 ( 如 该 份 试 眷 所 考 毒 的 知 
识 范围 ) 内 具有 相等 的 只 度 单位 ， 但 我 们 不 能 确定 这 个 尺度 单位 与 区 间 内 外 统一 观察 时 
可 能 采用 的 尺度 单位 之 间 的 比例 关系 . 概括 地 说 ， 等 上 距 数据 是 在 没有 绝对 堆 点 但 有 相等 
尺度 单位 的 测量 过 程 中 得 到 的 ， 可 以 进行 计数 、 大 小 的 比较 和 加 、 减 运算 ， 但 不 能 进行 
委 、 除 运算 . 

人 @ 比率 数据 ， 从 属于 比率 变量 的 观测 数据 ,一 般 认为 ， 由 物理 方法 测量 得 到 的 数据 
是 比率 数据 ， 如 物体 的 质量 、 生 物 的 寿命 、 生 活 中 某 种 消费 品 的 消费 量 等 , 由 于 这 类 数 
据 人 痛 在 统一 的 、 物 理 的 麻 量 尺度 ， 有 绝对 零点 和 相同 的 尺度 单位 ， 可 以 得 到 加 、 减 、 委 、 
除 运 算 结 果 有 意义 的 解释 ， 因 此 ， 比 率 数据 可 以 进行 计数 和 大 小 的 比较 , 以 及 加 、 减 、 
乘 、 除 运算 ， 
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在 数据 处 理 中 还 应 当 注意 数据 的 连续 性 问题 ， 通常 ,物理 方法 的 测量 乒 度 单位 往往 
能 够 无 限 分 割 成 更 细小 的 单位 ,因此 比率 数据 是 连续 性 数据 . 等 距 数据 也 讨 以 作为 连续 
性 数据 进行 处 理 . 但 是 ， 定 性 变量 下 的 计数 数据 则 是 语 散 性 数据 ， 


2.2 统计 分 析 的 基本 工具 


2.2.1 统计 量 


统计 量 是 统计 分 析 的 基本 工具 ， 

统计 量 是 指 样本 的 不 含 其 他 未 知 参 数 的 函数 , 统计 量 概 念 的 要 点 是 “不 含 其 他 未 知 
参数 "， 即 只 要 给 定 样本 数据 ， 则 统计 量 的 落 数 值 (统计 量 的 观测 值 ) 就 能 够 唯一 地 确定 
下 来 

统计 分 析 技 术 在 一 定 程 度 上 可 以 说 是 统计 量 的 构造 技术 . 学 习 过 笨 中 要 高 度 重视 针 
对 某 种 特定 的 问题 是 如 和 何 构造 相关 统计 量 的 , 本 小 节 仅 讨论 凡 类 基本 的 统计 量 ,这 是 在 
特定 的 问题 中 构造 相关 统计 量 的 基础 材料 ， 

《1) 样本 抑 

样本 答 是 最 基本 、 常 用 的 一 类 统计 量 ， 主 要 包括 如 下 两 种， 

他 样本 阶 (原点 ) 矩 . 设 X，X2，…， iid 一 和 ， 则 称 


上 一 四 《天 二 1 2,，…) 


为 变量 和 的 样本 阶 ( 原 点 ) 竹 .4 的 观测 值 记 为 总 ， 
特别 地 ， 样 本 的 1 春生 


1 村】 


称 为 样本 均 信 ， 它 是 最 重要 的 统计 量 之 一 ,反映 了 变量 X 到 信和 集中 程度 的 信息 . 这 的 观 
测 值 用 蔗 表示 ， 
加 样本 上 阶 中 心 矩 , 设 X 于 ,和 ii.d 一 入， 则 称 
Bi = 二 站 2 


为 变量 X 的 样本 大 阶 中 心 矩 ，B， 的 观测 值 记 为 内 
特别 地 ， 样 本 的 2 阶 中 心 此 


好 ;=1 


称 为 样本 方差 ， 它 也 是 最 重要 的 统计 量 之 一 ,反映 了 变量 X 到 值 分 数 程度 的 信息 3? 
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的 观测 值 用 。 表示 ， 
值得 注意 的 是 ,在 实际 应 用 中 , 常用 样本 的 修正 方差 


= 一 阅 (和 





方差 的 算术 根 称 为 样本 标准 差 ,， 记 为 S, 即 S = 


《2) 顺序 统计 量 
顺序 统计 基 是 另 一 类 最 基本 、 常 用 的 统计 量 . 
设 于， 基 iid 一 和 (ziyz2 2) 是 (XXX ) 的 任意 一 次 观测 
值 . 记 zy ze zt 是 zhb zyzy 的 一 个 排列 ， 并且 xz 四 迄 za 乌 …S 委 zt. 车 
令 ” 维 随机 疝 量 (XGD)， 和 02，… ts) 总 是 以 (zz ztoo) 为 观测 值 , 则 称 X(0， 
X0，…X 为 变量 X 的 一 个 顺序 统计 基 ， 
由 顺序 统计 量 出 发 ， 订 以 构造 许多 有 用 统计 量 ， 例如， 
名 样本 最 大 值 X = max( 和 1 民生 = 大 
@@ 样本 最 小 值 Xa = min( 和 X2， …， 夺 ) = 入 
侠 样本 极 差 尺 =max( 已 |， ) 一 mim( 瑟瑟 2， 瑟 ) 一 买 (一 夺 0; 
发 让 ， m 为 末 数 ， 


图 样本 中 位 数 庆 = 
四 ， 为 偶数 , 


2.2.2 数据 特征 的 度量 及 共 MATLAB 函数 


统计 基 最 基本 的 应 用 就 是 对 数据 特征 的 度量 ， MATLAB 定制 了 样本 数据 的 一 些 党 
用 度量 性 的 统计 描述 机 数 ， 下 面 就 最 常用 的 部 分 分 别 予 以 介绍 ， 





(1) 数据 集中 性 的 度量 

数据 集中 性 的 度量 见 表 2.2， 

表 2.2 数据 谢 中 性 的 庶 量 
统计 童 名称 统计 量 的 数学 庆 义 MATLAEB 函数 

样本 均值 天 = 于 切 ean 
.样本 中 信 me s( 参 见 样本 的 经 验 分 位 数 ) sdian 
样本 几何 均 介 zi=( 末 =)* geomean 
守 画 二 

祥 本 调和 均 入 3 (zi hanmmean 


一 





3 数理 练 计 与 Mr437.4 多 据 处 理 

















(2)》 数据 变异 性 的 度量 
数据 变异 性 的 度量 见 表 2.3， 
训 2.$ 数据 变异 性 的 度量 
统计 量 各 称 统计 量 的 数学 定 史 MATLAB 还 教 
笠 本 方 著 呈 = 和 Var 
样本 标准 莽 5 = std 
样本 极 莽 具 = 工 f 由 一 之 全 range 
样本 内 四 分 位 数 疝 距 了 = 坦 0. 一 mo 25 符 见 样本 的 经 验 分 位 数 ) 记 r 
(3) 数据 分 布 特征 的 度量 
数据 分 布 特征 的 度量 见 表 2.4. 
衷 2.# 数据 分 布 特征 的 度量 
统计 量 各 称 统计 量 的 玫 学 定 久 MATLAB 函数 
样本 的 经 验 分 位 数 四 AN 同 
”405(zomrztorD)， 地 EN 0 
样本 峰 度 RU- 了 urosis 
样本 仿 度 sf-= 冯 skewmess 
了 
《4) 两 组 数据 线性 相依 程度 的 度 基 
两 组 数据 线性 相依 程度 的 度量 见 表 2.5， 
表 2.5 两 组 数据 线性 相依 程度 的 度量 
统计 重 名 称 度 计量 的 数学 定 久 MATI.AB 冰 赦 
样本 志方 关 at - mv 
样本 相关 系数 r= 坟 corrcoet 





2.3 统计 分 析 的 推理 基础 


2.3.1 常用 的 统计 分 布 与 "分 位 数 


统计 量 作为 随机 变量 的 函 教 ， 也 是 随机 变量 ， 自 然 要 服从 某 种 概率 分 布 ， 统 计量 的 
概率 分 布 称 为 抽样 分 布 , 统计 推理 的 品质 完全 取决 于 其 所 依赖 的 抽样 分 布 的 性 质 . 通 
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常 ， 抽 样 分 布 区 分 为 精确 分 布 ( 当 总 体 X 的 分 布 类 型 已 知 时 ， 对 任 一 自然 数 m， 都 能 导 
当 统 计量 的 分 布 的 明显 表达 式 ) 和 半 近 分 布 (借助 于 中 心 极限 定理 ) 两 类 ,依据 精确 分 布 
可 进行 小 样本 统计 推理 ， 而 浙 近 分 布 则 是 大 样本 统计 推理 的 理论 基础 . 

本 小 节 介 绍 抽样 分 布 的 概率 基础 一 一 常用 的 统计 分 布 . 
2.3.1.1 和 分布 

定义 2,1 如 果 随 机 变量 X 的 概率 密度 为 
2~1 


下 
z2 82 了 裕 0 


1 
Fryn)y = | 
由 ， . 所 0， 


其 中 , 参数 ， 取 正 昨 数 ，F(z) 是 通过 积分 FLz) - | edc > 0) 定义 的 伽 取 函数， 


则 称 X 服从 参数 为 n 的 X 分 布 ， 记 为 X ~ X2(a)， 并 称 参数 ”为 X 分 布 的 自由 上 度 ， 
F(z) 称 为 业 “分布 的 密度 表 教 ， 
X “分布 的 密度 函数 曲线 见 图 2.4( 绘 图 指令 集 M- 脚 本 文件 chi2plot 见 本 书 内 录 C) 





图 2.4 六 分 布 的 密度 画 数 曲 线 


不 难 求 出 六 分 布 的 数学 期 望 和 方 关 ; 设 X~XY2(z)， 刚 王 (X) = 总， Var(X)=2z。 

下 面 不 加 证 明 地 列 出 关于 yz 分布 的 两 个 常用 定理 ， 

定理 2.1 {X 分 布 的 可 加 性 ) 设 XI 一 X2(z)， 思 一 yz(zz)， 且 Xi，X， 相互 独立 ， 
则 磋 十 大 一 Xml 十 mo 

定理 2.2 ({X 分 布 的 统计 生成 定理 】 设 XXX id N(01)， 令 和 = 
Xit+ X2+…+X2， 则 统计 基 w 一 2(z)， 





和。 数理 统计 与 jd477 4 数据 处 理 


推论 设 和 XXX id NO co， 信 x= > (X 一 Ap 则 一 (z)， 


2.3.1.2 上 分 布 
定 尽 2,2 如 果 随 机 变量 X 的 概率 密度 为 


大 十 二 
2 


AT 
刚 称 艺 服从 参数 为 ” 的 上 分布 ， 记 为 己 一 En )， 并 称 人 参数 * 为 上 分布 的 自由 度 ，ffz) 
称 为 上 分布 的 密度 函数 ， 
分 布 的 密度 函数 曲线 见 图 2.5( 绘 图 指令 集 M- 脚 本 文件 tplot 见 本 书 附录 C). 











用 




















图 2.5 + 分布 的 密度 函数 曲线 
由 图 2.5 可 以 厦 出 ，: 分 布 的 密度 函数 具有 对 称 性 和 靳 近 正太 性. 
马 对 称 性 ，: 分 布 的 密度 函数 六 zx) 关 于 zx=0 对 称 , 且 im 7(z)=0. 
名 渐 近 正太 性, 当 ”充分 大 ( 衬 45) 时 ，: 分 布 近似 于 标准 正 态 分 布 ， 即 


2 
1 e 





lim 帮工 2) 一 讨 
下 实 


但 对 于 较 小 的 *，# 分 布 与 标准 正 态 分 布 相差 很 大 . 
不 难 求 出 上 分 布 的 数学 期 望 和 方差 : 设 了 了 ~:(z)， 则 当 2>2 时 , 有 下 (T)=0， 


Var(T)= 一 了 


下 面 不 加 证 明 地 列 出 关于 : 分 布 的 一 个 常用 定理 ， 
定理 2.3 (t 分 布 的 统计 生成 定理 ” 设 统计 量 生 一 N(0,1)，Y 一 Y2(z)， 上 且 和 与 了 
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， 有 
相互 独立 ， 则 统计 量 T= -方志 红 守 )， 




















2.3.1.3 万分 布 
定 尽 2.3 如 果 随 机 变量 X 的 概率 密度 为 
好 1 十 天 2 本 _ 
aa 
六 my ao) 二 NE 和 2 号 72 
也 
0， 立 忌 0， 


别称 X 服从 参数 为 ai，ay 的 工分 布 ， 记 为 下 一 F(ni, ms)， 并 称 参 数 mn ， 2 为 王 分 布 
的 第 一 、 第 二 自由 度 ，Fz) 称 为 下 分 布 的 密度 函数 ， 


由 定义 2.3 可 知 ，F 分 布 具 有 便 数 对 称 性 : 落 一 Fniy ma， 则 坟 = 其 /22 ~ 
了 (ray 1 )》 
F 分 布 的 六 度 函数 曲线 如 下 


中 王 分布 的 密度 函数 曲线 形态 (绘图 指令 集 M- 脚 本 文件 plot_1 见 本 书 附 录 C) 嘴 
图 2.6. 


图 2.6 王 分布 的 密度 函数 曲线 
@ 自由 度 对 P 分 布 密度 曲线 形态 的 影响 (绘图 指令 集 M 脚本 文件 fplot_2 见 本 书 骨 
录 O 见 图 2.7， 
不 难 求 出 下 分布 的 数学 期 望 和 方差 : 设 下 ~ FE(zal，z),， 则 
2zn2(al+zaa 2) 
PICms 一 2)(n， -4)} 


如 2 








了 上 (下 ) = (na >2)， Var( 下 )= 《ma3 2>4)， 


如 2 一 字 


。4 和 2。 数理 统计 与 于 4 和 .4 玉 数据 处 理 


























图 2.7 自由 产 对 了 分 布 密度 曲线 形态 的 影响 


下 面 不 加 证 明 地 列 出 关于 下 分 布 的 一 个 常用 定理 ， 
定理 2.4 {F 分 布 的 统计 生成 定理 ] ” 设 统 计量 买 一 记 (a)，Y 一 X(aa)， 且 斑 与 


Y 相互 独 立 ， 则 统计 量 下 = 荆 /2 

上 述 三 种 统计 分 布 亦 称 为 中 心 妇 分布、 分 布 和 下 上 分布 . 需要 指出 的 是 ,由 密度 落 
教 给 出 的 定义 与 统计 生成 定理 是 等 价 的 ， 在 许多 教材 中 往往 直接 用 统计 生成 定理 作为 定 
义 使 用 . 对 三 个 统计 生成 定理 的 证 明 感 兴趣 的 读者 请 参见 文献 [1]， 与 之 相应 的 有 非 中 
心 巡 分 布 、: 分 布 和 正 分布. 非 中 心 统计 分 布 与 中 心 统计 分 布 一 样 ,在 统计 推断 中 也 发 
挥 着 重要 的 作用 ， 

关于 非 中 心 分 布 ， 这 里 仅 给 出 它们 的 统计 生成 定义 

定义 2.4 [ 非 中 心 六 分 布 ) 设 忆 一 No (=12,…,za)， 且 相互 独立 , 令 


e = 二 2 XY ， 则 称 x 服从 自由 度 为 n、 非 中 心 参数 为 A 的 非 中 心 分 布 ， 记 为 “ 


一 下 (my 12)》 


1 由 
交加 其 中 隐 三 让 2 


定义 2.5 ( 非 中 心 上 分 布 】 设 统计 量 刁 一 Nu 1)，Y 一 六 (2)， 且 王 与 了 相互 独 
立 , 令 了 = /天 ， 则 称 了 服从 自由 度 为 n、 非 中 心 参数 为 /的 非 中 心 + 分 有 ， 沁 为 


下 一 红 2 HA)， 
定义 2.6 ( 非 中 心 下 分 布 ) 设 统计 量 于 -xz(naiyp)， 一 x2(aa)， 且 和 与 了 相互 


基 
各 立 ， 令 = 了 72， 网 称 下 服 内 自由 度 为 (ni， no)、 非 中 心 参数 为 < 的 非 中 心 下 分 
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记 为 匡 一 Fnai，7za， 户 )， 
MATIAB 为 三 大 类 统计 分 布 也 提供 了 pdf、ecdf、inv、stat 和 rnd 类 冰 数 ， 相 上 的 分 
布 类 再 和 名称 如 下 : 
分 布 类 型 “MATLAB 和 名称 
疝 分 布 “” 中 这 
分布 
互 分 布 了 
非 中 心 和 分 布 nex2 
非 中 心 了 分 市 net 
非 中 心 下 分 布 nef 
2.3.1.4 统计 量 的 渐 近 分 布 
在 大 多 教 场合 ， 精 确 的 抽样 分 布 不 易 求 出 ， 或 者 求 出 来 的 精确 分 布 过 于 复杂 而 难以 
应 用 ,这 时 人 们 借助 于 极限 工具 ,寻求 在 样本 容量 无 限 大 时 统计 量 的 极限 分 布 , 
假如 这 种 极限 分 布 能 求 出 ,那么 在 样本 容量 = 较 大 时 ， 可 用 此 极限 分 布 当做 抽样 分 
布 的 一 种 近似 ， 这 种 分 布 称 为 渐 近 分 布 . 
关于 渐 近 分 布 ,下 而 的 定理 是 大 样本 统计 分 析 的 一 个 基石 性 的 结论 . 
定理 3.5 【Levy-Lindeberg 中 心 极限 定理 ) 设 碎 ，X2 ,和 iid, 一 和 po 分 
别 是 变量 匡 的 均值 各 方 善 , 且 0< 于 < + oo， 则 对 于 亮 分 大 的 ， 近 伏地 有 副 ~ 
Na2yn)， 
对 和 定理 的 证 明 参 见 文献 [3]， 更 多 的 关于 统计 量 渐 近 分 布 的 结论 将 在 具体 应 用 的 场 
合 给 出 . 
在 应 用 中 ,， 若 推 知 统 计量 精确 地 服从 上 述 三 种 统计 分 布 中 的 某 一 种 ， 则 可 在 小 样本 
条 件 下 进行 统计 推理 否则， 必须 在 大 样本 (” >30) 条 件 下 依据 统计 量 的 渐 近 分 布 进行 
统计 推理 ， 
2.3,1.5 rw 分 位 数 
在 利用 统计 莉 与 统计 分 布 进行 统计 推理 时 ， 离 不 开 概率 分 布 的 分 位 数 的 概念 ， 
定义 2.7 {e 分 位 数 ) 设 0<e<1， 对 于 随机 恋 量 革 ， 
外 “分 位 数 , 满足 己 |XSzl=a 的 点 z 
外 上 俩 = 分 位 数 , 满足 P{X>zrl=ac 的 点 z， 
名 双 侧 ex 分 位 数 : 满足 王 { 基 有 委 zol = af2 且 天生 >z = aA2 的 点 zu 与 
衬 ay2， 
{ 例 2.5] w 分 位 数 概念 图 示 与 相关 的 MATLAB 计算 . 
图 2.8 是 e 分 位 教 概念 示意 图 (绘图 指令 集 M- 脚 本 文件 alphaplot 见 本 书 附录 C)， 


人 毅 理 统计 与 有 427.4 有 8 娄 据 处 理 








分 布 类 型 是 标准 正 态 分 布 ，w = 中 ,05. 


Probability Between Lirmits = D.043934 


0.4 | ， 
可 ~ 
0.2 1 人、 
一， 和 
冯 之 - 0 1 3 


Probability Between Hmits = 0.065302 














-7 La 1 -一 -| 
过 -| 站 
Probability Between Limits = 疙 on 


04[ 站 一 ~ 
一 
.> _- 一 
避 -一 - 1 - 1 和 
了 -| 


图 2.,8 ze 分 位 数 报 念 示意 轩 


在 绘制 指令 集中 ， 关 键 的 几 个 MATLAE 男 数 如 干 . 

由 计算 标准 正 态 分 布 的 0.05 分 位 数 . 如 上 便 wy/2 分 位 数 的 计算 指令 是 

xalpha = norainvy (0.975,0,1) 

王 面 几 个 数值 是 标准 正 态 分 布 的 0.05 分 位 数 ; 

下 侧 分 位 数 : -1.6449; 

上 便 分 位 数 ; 1.6449; 

双 侧 分 位 数 ，- 1.9600，1,9600. 

加 生成 样本 数据 ,如 生成 300 个 标准 正 态 分 布 的 计算 指令 是 

data = norarnd (0,1,300,1) 

电 绘制 工序 能 力图 (绘制 由 分 位 数控 制 的 密度 曲线 下 的 面积 图 ， 用 阴影 表示 ， 并 计 
算 祥 本 数据 落 入 控制 区 域 的 概率 ， 显 示 在 标题 位 置 上 ). 计算 指令 是 : 

capaplot( data，[xalpha, iaf]) 

在 通常 的 数理 统计 教程 中 ， 有 关 分 位 数 的 值 是 通过 查 表 求 得 的 ,需要 注意 以 下 几 











点 

GD 在 妇 分 布 上 便 分 位 数 表 中 可 查 到 ”~ 45， 对 于 n >45， 可 以 使 用 正 态 近 似 ，-- 
个 较 好 的 近似 公式 是 12(z js (us + V25 二)?， 其 中 zw 是 标准 正 态 分 布 的 上 分 位 
数 
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全 在 上 + 分布 上 侧 分 位 数 表 中 只 可 查 到 = 45， 对 于 za >45， 可 以 使 用 正 态 近 侯 


志 【《 姑 J2 


@ 容易 证 明 ，F 分 布 s 分 位 孝 具 有 性 质 Pi -。(niy na)= 声 C5j， 此 式 可 用 来 求 


下 分 布 表 中 未 列 出 的 一 些 上 we 分 位 数 ， 例如 Fus(12,9)= 交 一 9T = 开 晤 =0.337 


在 统计 应 用 中 , 由 MATLAB 进行 数据 处 理 和 辅助 分 析 ， 能 够 极 大 地 简化 基于 查 表 
计算 某 些 元 繁 的 公式 推导 和 变换 ， 


2.3.2 基于 正 态 分 布 的 常用 抽样 分 布 


下 面 给 出 几 个 在 小 样本 统计 推断 中 常用 的 抽样 分 布 定理 ， 
定理 2.6 { 严 坊 变量 样本 均值 的 抽样 分 布 定理 ) 设 ,和 ,下 id 一 NA 


o， 则 
芝 一 Na 一 NI0， 
着 一 NOpsa 7 2 (0,1)， 
推论 设 忆 Tiid 一 NO o2)， 则 


一 N[(z 和 oo 六 避 ， 
定理 2.6 及 其 锥 论 是 正 态 分 布 的 可 加 性 在 统计 中 的 推广 ， 这 里 不 再 闽 述 其 证 明 ， 
定理 2.7 (正太 变量 样本 方差 的 抽样 分布 定理 ] 设 世 ，XD，…， 和 让 id 一 NA 
o),， 束 和 3 分别 为 样本 均值 和 样本 方差 ， 则 
名 样本 均值 入 与 样本 方 若 S? 独立 ; 


了 开 
0 一 二 (5 -一 开 一 1); 


坊 攻 - in- 1)， 


SAVn 
统计 分 析 的 技术 在 一 定 程度 上 是 统计 量 的 构造 技术 . 在 这 里 ， 以 定理 2.7 合 中 的 统 


计量 为 例 进 行 说 明 . 

【 例 2,6] 统计 量 构造 技术 示例 一 ( 兼 做 定理 2.7@@ 的 证 明 ) 

在 应 用 问题 中 ， 有 时 需要 对 变量 的 均值 Ap 作出 某 种 判断 ， 这 一 问题 往往 转化 为 样本 
均值 X 和 w 的 比较 (数学 上 ， 量 值 之 间 的 比较 通常 是 对 比较 对 象 之 间 的 值 差 或 比值 的 考 
查 )， 并 需要 对 比较 的 结果 作出 禄 率 的 判断 (所 谓 概率 的 判断 ， 是 说 判断 在 一 定 的 概率 意 
义 下 可 能 是 正确 的 ， 或 者 说 据 此 判断 作出 诀 策 可 能 要 承担 风险 )， 这 就 需要 构造 一 个 作 
为 分 析 工 具 的 统计 量 ， 并 且 这 个 统计 县 的 概率 分 布 是 可 知 的 (否则 这 个 统计 量 在 分 析 中 
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一 无 用 处 )， 
如 果 和 1 Ni.id 一 NIa， 的 )， 并 且 总 体 的 方 莽 o 已 知 ， 则 由 定理 2.6 可 
选 统计 量 为 
U= ;天 -NO 
如 果 总 体 的 方差 o“ 未 知 ， 则 使 用 统计 量 立 将 带 来 很 大 的 麻烦 ， 因 为 在 确定 怠 和 。 
的 关系 时 ,未知 的 "” 是 一 个 障碍 . 此 时 ,容易 想到 的 是 用 样本 方 荆 S 车 代 " ， 这 又 产 
生 了 新 的 问题 : 如 此 替换 后 的 统计 量 还 能 腿 从 N(0, 1 分布 吗 ? 


然而 ， 我 们 知道 “= (二 3 …X(n -1)， 且 与 e 二 者 省 立 , 于 是 由 ! 分 布 的 


统计 生成 定理 可 知 
LDL ， _ 
了 = ACT 大 1)， 
化 简 即 得 
-= 兰 -4 iir， 
于 3/ 万 上 人 一 二 )， 
在 这 里 我 们 用 到 了 定理 2.7 的 结论 介 和 轩 作 为 推理 的 依据 . 关于 这 两 个 结论 的 证 明 
涉及 更 多 的 基础 知识 ， 稍 复杂 一 些 ， 感 兴趣 的 读者 请 参见 文献 [2] , 
定理 2.8 [两 个 正 态 蛮 量 样本 均值 天 的 抽样 分 布 定理 ) 设 总 体 和 ~ Na， 
Y~ Ne , 且 刁 与 了 Y 相 下 独立 ， XXX id 一 Nayo2)，Y To 了 


iid-- NO co， 则 


”3 


全 二 切 一 (ui 一 pa) 


s$ 厅 1 
耻 ] 中 2 
其 中 
《了 1 一 1S1 +T{as 一 巧 S; ， 1 如 _， ， 1 ， 
So S (和 是 (于 了 


特别 地 ， 当 mi = 2 = 于 时 ， 上 式 成 为 
(一 了 ) 一 (pa 一 za) 


| 31 二 全 2 
隐 


[ 例 2.7】 统计 量 构造 技术 示例 二 ({ 兼 做 定理 2.8 的 证 明 )， 
在 某 些 应 用 场合 , 我 们 需要 对 两 个 变量 的 均值 w, 和 ma 进行 比较 并 作出 相应 的 概率 


一 并 2 十 mi 一 2)， 





一 开 21 一 2) 
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判断 ， 这 就 需要 构造 一 个 作为 分 析 工 具 的 统计 量 ， 并 且 这 个 统计 量 的 概率 分 布 是 可 知 
的 , 容易 想到 ， 变 量 沟 值 key 和 ms 的 亲政 程度 可 以 用 样本 均值 对 和 了 的 亲 疲 程度 近似 
描述 ,而 

总 ~NUaya2a)， 了 ~ 一 NUaya2a 
所 以 








标准 化 后 ,有 


如 果 两 个 变量 的 方差 i，o3 已 知 并 且 相 等 ( 记 为 2)， 则 就 可 以 作为 进一步 分 析 
所 需要 的 统计 景 . 这 里 我 们 假定 of，o2 未 知 , 则 U 不 可 用 . 考虑 用 S?，S2 替代 oz，o3. 
因为 


fm 一 19， (mv 一 1752 
二 一 (mi 一切 2 一下)， 
人 Et G2 


由 X(z) 的 可 加 性 知 
_(aDS1 (ma-1)S2 
加 2 了 





帮 X 2m1 十 2 一 2)， 


51 92 
根据 : 分 布 的 统计 生成 定理 ， 有 
也 
T= 一- 一 - -2)， 
5 区 2 十 2 一 2) 
化 简 即 得 
全 tea +) 
S 用; 
有 下 王 
其 中 


ai-1DS3+(na 一 1)52 

5 7 十 下 一 2 
定理 2.9 (两 个 正 态 变量 样本 方差 比 的 抽样 分 布 定理 ) 设 总 体 和 ~ Ni，c1)， 
Y 一 NUe，oi)， 上 且 天 与 了 相互 独立 ，X，X， Na)， Ti， TY，…， 


了 iid 一 N(pna,a )，Sb 52 分 别 是 这 两 个 漳 本 的 样本 方差 ， 则 
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Si/o4 
S27c3 

【 例 2.8】 统计 量 构造 技术 示例 三 {( 兼 做 定理 2.9 的 证 明 )， 

在 某 些 应 用 场合 ,我 们 需要 对 两 个 变量 的 方差 cl 和 az 进行 比较 并 作出 相 旋 的 概率 
判断 ， 这 就 需要 构造 一 个 作为 分 析 工 具 的 统计 量 ， 并 且 这 个 统计 量 的 概率 分 布 基 可 知 
的 , 凌 易 想到 ,变量 方差 o 和 cz 的 素 芒 程度 可 以 用 样本 方差 S1 和 5: 的 素 赢 程度 近似 
描述 ,而 





一 下 ( 中 一 ，32 一 于) ， 








一 2 2 一)S 
和 Da 
21 22 
且 两 者 相互 独立 , 由 天 分 布 的 统计 生成 定理 ,有 
上 太 呈 一 1 
-1 一 Fn 1，m 一 1)， 
化 篇 即 得 
S1/al 
F= 下 ~ Fn -1 2 一 1 


需要 指出 的 是 ,在 这 里 的 讨论 中 假定 子 变量 的 均值 是 未 知 的 ， 
2.3.3 顺序 统计 量 的 抽样 分 布 


关于 顺序 统计 量 的 分 布 问题 ， 在 许多 初等 概率 论 的 教材 中 都 有 详细 的 讨论 ， 下 面 不 
加 证 明 地 给 出 相关 的 结论 ， 

定理 2.10 (顺序 统计 量 的 概率 分 布 定理 ) 设 变量 X 的 分 布 函数 为 F(z) 密 度 函 数 
为 Kz)), 于 的 样本 顺序 统计 量 为 和 0，Xe，…， 和 oh， 则 

四 Xi，Xo，…， 成 的 联合 分 布 的 密度 函数 为 al F(zD)… 天 mn)，mi< <zui 

@@ X 的 分 布 函数 为 [F(z)]"， 密 度 函 数 为 zf(z)[F(z)]” 

图 Xi) 的 分 布 函 教 为 1- [1- F(z)]”"， 密 度 函 数 为 xF(z)[I- P(z)]”” ; 


1 上 -1r 词 一 下， 
也 Xe 的 密度 函 郝 为 一 1 ( JITAZ)LRF(z)] [1! 开放 ? 
子 】 
@@ (Xuo，X0) ) 的 联合 密度 函 孝 为 Ti -iTUCATTOCDTAzD)AzD 
[F(z] ITFCz) -ECOzD 站 1I[1- 下 (zi) 其 中 有 <72，m<zi， 


关于 上 述 结论 的 证 明 及 其 由 顺序 统计 县 诱导 出 的 统计 量 (如 样本 极 差 ) 的 分 布 ， 请 读 
者 参见 文献 [2] 
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习题 2 


1. 设 X~NI0， 1)， 利 用 MATLABRB 求 区 下 概率 : 
{1) 三 | 宝 1 《2) 三 [>1.5 《3) 了 -1<Xs2|， 

2 设 和 -NI5,32)， 利 用 MATLAB 求 概率 卫 12<XS10|， 

3 绘制 自由 度 分 别 为 2，5，8 的 六 分 布 的 密度 面 数 曲线 ， 并 分 别 求 其 均值 与 方 善 . 
观察 驮 数 对 密度 机 线 的 彩 响 ， 

4. 车 下 ~8NH)， 斌 证 明 人 一 熙 (1，x#). 

5, 利用 MATLAB 计算 5，13，17，29，80，150 这 一 组 数据 的 算术 均值 、 调 和 均 舍 
和 玫 何 均值 ， 并 比较 它们 之 冶 的 大 小 ， 

6,， 设 一 拭 零 件 的 长 度 X( 单 位 : cm) 服 从 N(20, 0.2)， 现 从 这 挑 索 件 中 住 取 一 件 ， 
求 e 使 忆 [| 和 -20| 志 el =0.95， 

7, 设 变量 刁 ~N(u，o2)，X，X，…， 和 为 和 的 样本 ， 问 料 本 容量 ?至 少 应 取 


多 大 才能 使 书写 <1.5j>>0.95. 


8. 写 出 计算 正太 分 布 N(3, 时 ) 的 0.1 上 合 、 下 便 、 双 便 分 位 数 的 MATLAB 计算 指 
令 ， 
9. 设 时 ，X，…，X 是 来 自 正 态 变量 太一 N(0，22) 的 简单 随机 样本 ， 求 系数 a， 
避 ，c， 使 
其 =@(X 十 舌 关 十 上 ( 生 十 乱 十 大) 二 cfX5 寺 7 十 大 二 大 9 
服从 他 分 布 ， 并 求 其 自由 度 ， 
10. 设 和 ,XXXo 是 来 自 标 准 正 态 变 量 和 的 简单 随机 祥 本 ， 且 


到 = 二 (入 十 人 二 其 = 本 (7 十 着 其 9) 


3 = 诈 (TY) ，2Z= S 


求证 : 统计 量 2 服从 自由 度 为 3 的 上 上 分布， 
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第 3 章 统计 估计 


统计 估计 是 统计 推断 的 主要 内 容 ， 包 括 两 个 方面 的 任务 : 四 变量 的 分 布 形态 未 知 ， 
根据 样本 数据 对 变量 的 分 布 形态 作出 推测 (估计 ); @@ 变量 的 分 布 形态 已 知 ， 即 已 知 其 概 
率 分 布 函数 (或 概率 分 布 律 ， 或 概率 密度 落 数 ) 的 数学 表达 式 ,但 是 某 些 参数 (或 数字 特 
征 ) 未 知 ， 根 据 样本 数据 对 未 知 的 参数 (或 未 知 参 数 的 函数 ) 作 出 估计 ， 

本 章 介 绍 统计 估计 的 基本 方法 ， 包 括 频率 直方 图 、 经 验 分 布 函数 与 box 图 等 对 变量 
分 布 形 态 进行 初步 估计 的 方法 ， 以 及 参数 的 矩 估计 方法 和 极 大 似 然 估 计 方 法 、 估计 基 性 
各 的 于 从 、 估计 误差 的 分 析 与 控制 问题 (参数 的 区 间 估 计 )， 


3.1 变量 分 布 形态 的 估计 


3.1.1 频率 分 布 表 与 地 率 直方 图 


闫 素 分 布 表 是 一 种 对 连续 性 变量 的 观测 数据 进行 分 组 整理 和 初步 分 析 的 一 种 重要 
的 统计 数据 表 , 频率 直方 图 是 频率 分 布 卖 的 图 形 化 . 通过 闫 率 分 布 表 与 频 束 直 方 图 , 可 
以 实现 对 变量 分 布 形态 ( 构 率 密度 曲线 ) 的 初步 估计 . 掌握 频率 分 布 表 的 编制 与 频率 直方 、 
图 的 绘制 方法 是 统计 应 用 的 一 项 基本 技能 ， vv 
下 面 举例 说 明 频 率 分 布 表 的 编制 方法 和 频率 首 方 图 的 绽 制 ， 
【 例 3.1】 钢材 中 的 含 硅 量 X 是 影响 材料 性 能 的 一 项 重要 因素 . 在 炼 钢 生产 过 程 、 
. 中 , 由 于 各 种 随机 因 喜 的 影响 ,各 炉 钢 的 含 硅 量 X 是 有 差异 的 . 对 含 硅 量 式 概 率 分 布 
的 了 解 是 有 关 钢 材料 性 能 分 析 的 重要 依据 ， 某 炼 钢 厂 120 炉 正 常生 产 的 23MnSsi 钢 的 会 
硅 量 ( 侍 位 : 名 ) 如 下 ; 
0.86 083 0.77 081 0.81 0.80 0.79 0.82 0.82 0.81 
0.82 0.78 0.80 0.81 0.87 0.81 0.7 0.78 077 0. 了 8 
0.77 0.71 0.95 0.78 0.81 079 0.80 077 0.76 0 
0.84 0.79 0.90 0. 0.79 0.82 0.79 0.86 10.81 0.78 
0.82 078 0.73 0.84 0.81 0.81 0.83 0.89 0.78 0.86 
0.78 0.84 0.84 0.75 0.81 0.81 0.74 0.78 0.765 0.80 
0.75 0.79 0.85 10.78 0.74 0.71 0.88 0.82 0.76 0.85 
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0.81 079 0.77 0.81 1081 0.87 0.83 0.65 164 .78 
0.80 0.80 0.77 084 0.73 083 0% 080 10.85 081 
0.82 0.84 0.83 0.84 082 0.853 0.84 0.82 0.853 0.84 
0.81 0.77 0. 和 2 0.83 0.82 0.74 0.793 0.755 0.77 0.78 
0.87 077 080 05 082 018 088 082 018 0.18 


下 面 介绍 如 何 编制 频率 分 布 表 ， 以 及 绘制 频率 直方 图 的 MATLAB 实现 方法 . 

首先 , 将 上 述 120 个 含 硅 基数 据 载 人 MATI.AB 系统 的 工作 内 存 { 如 预先 编写 数据 
文件 hgl.mat， 保 存 到 读者 自己 的 工作 路 和 低下， 然后 运行 下 面 的 两 条 指令 ): 

所] 各 汪 

load hg1 

下 面 介绍 频率 分 布 表 的 编制 方法 ， 其 基本 步骤 如 下 ， 

(1) 数据 分 组 

由 确定 数据 组 个 数 . 根据 样本 闪 量 ”确定 分 组 数 有 上 ， 推 荐 公式 为 上 = 1.87(m - 
1 二 2 ， 

加 计算 极 次. 计算 公式 为 RR ,= max(ziy za myzo) -mintriyray…yzro). 

鲜 确定 组 距 . 计算 公式 为 4d=sR /人 ， 一 般 取 d4 为 数据 的 最 小 测量 单位 的 整数 倍 ， 

国 确定 各 组 端点 ， 计 算 公式 为 mg = ao+ 赤 ( 开 = 101 ,7)， 其 中 ao<minlzi 
as>max|zjl .an 的 确定 方法 一 般 地 取 au 比 数 据 的 最 小 值 小 半 个 测量 单位 ， 

(2) 统计 各 组 频数 

各 组 频数 就 是 数据 落 入 各 个 小 组 中 的 个 数 ， 记 为 

上 述 计算 的 MATLAB 实现 由 两 步 完 成 ; 第 一 步 ， 先 确定 组 数 的 推荐 公式 ， 求 出 分 
组 数 有 ; 第 二 步 ， 其 他 的 计算 极 芝 、 确 定 组 距 、 确 定 各 组 端点 和 统计 各 组 频数 的 工作 均 
可 由 MATLAB 系统 阔 数 hist 完成 ,hist 的 输入 参数 通常 有 两 个 ,第 一 个 是 数据 向 量 , 第 
工 个 是 小 组 个 数 f hist 的 输出 参数 有 两 个 , 第 一 个 返回 各 组 的 数据 频数 ， 第 二 个 返回 各 
个 数据 组 的 区 间 位 置 值 (组 中 值 ). 

k = ceil(1.87* (length(hgl)~1)0.4); 

[mi, ak] = hiast(hg1,k)i 

{3) 计算 频 党 

外 计算 各 组 频率 . 计算 公式 为 六 =n/a. MATLAB 计算 指令 为 

fi = ni7length(bgl); 


O 计算 各 组 累积 闫 率 . 计算 公式 为 F = 1 太 (i = 1.2,…., 有 .MATLAB 计算 指 
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令 为 
aEi = cuansuaffi); 
{4) 编制 频率 分 布 表 
逐一 运行 上 述 MATILAB 计算 指令 ， 再 运行 指令 
stats = [[1:z] ak，ni“ fi，mnfi7] 
就 可 得 到 120 炉 25MnSi 馈 的 售 硅 量 数据 的 频率 分 布 才 ， 稍 加 整理 即 得 到 表 3.1. 








表 3.1 ， 120 炉 25Mmsi 钢 的 含 待 量 数据 新 率 分 布衣 
想 庆 臣 中 入 频数 频率 困 积 频率 
1 人 .6 2 0.0167 0.0167 
卫 履 .6758 蜂 了 1 各 .0167 
3 0 的 5 2 0.0167 0.0333 
4 0.7235 2 0.0167 0.0500 
5 站 .7473 8 0.0667 0.1167 
6 0.7712 2 0.2417 0.3583 
7 0.7950 15 0.1250 0.4833 
8 0.8188 3 0.3000 0.7833 
9 0.8427 15 0.1250 0.9083 
1 0.8665 6 0.0500 0.9583 
11 0.8904 4 0.0333 0.9917 
12 必 .9142 属 用 站 ,99 地 
13 0.9381 1 0.0083 1.0000 


接 下 来 介绍 频率 直方 图 和 累积 频率 折线 图 及 其 绘制 方法 ， 
频率 直方 图 是 连续 性 变量 频率 分 布 的 图 形 化， 累积 频率 折线 图 是 累积 频率 分 布 的 图 
形 化 ， 

在 频率 直方 图 中 , 横 轴 表示 观测 变量 的 观测 值 ， 每 一 个 小 拭 形 的 水 平 边 长 = 组 下 ; 
纵 轴 表示 各 组 教 据 的 频率 ,由 于 概率 密度 曲线 下 方 的 面积 但 等 于 1， 因 此 为 保证 直方 图 
中 所 有 和 拢 形 条 面积 之 和 也 等 于 1， 规 定 每 个 小 矩形 的 高 度 = 该 组 数据 的 频率 /组 距 、 

用 MATILAB 绘制 直方 图 的 指令 是 hist 或 histfit， 但 是 需要 指出 的 是 ,为 观察 上 的 方 
便 ， 这 两 个 指令 绘 册 出 的 图 形 纵 辅 的 刻度 是 频数 信 ， 

hist 前 面 已 经 见 过 ， 当 有 输出 参数 时 ， 它 将 完成 各 组 频数 的 统计 工作 ; 若 无 输 出 参 
教 ， 则 直接 绘制 频率 直方 图 ， 

hist(hgl) 占 画 直 方 图 

= findobj(gca Type patch“)， 当 为 修饰 图 形 提取 指定 属性 对 紊 的 图 形 贞 榈 
h( 图 形 身 柄 是 对 图 形 进行 细 致 个 侯 的 操作 对 象 ， 感 兴趣 的 读者 可 天 见 文 献 [5] ) 

set (hy “gaceColor ，Y “EdgeColor'，b7) 和 修仙 设置 直方 图 线 素颜 色 与 填 齐 双 


十 过 指 他 的 二 行 结 举 锡 图 3,1， 





围 3.1 -ist 的 寺 制 的 直方 男 


istfit 指令 在 制 瑟 率 直方 侠 的 同时 础 机 一 条 正太 审 诬 曲 战 ， 以 供 套 考 ， 

用 = isEtfb9I 3 年画 附 正 击 地 考 乓 籁 的 直入 加 ,并 提 权 转型 身 生 下 

BotfhtY JEseeColoe ErEdgacolarc “we 机 村 帆 和 台 重 十 寺 国 线 素 条 芭 当 下 
竞 本 

Batfhf2j eolor rar) 生性 悼 ， 设 置 正 店 系 者 晤 隆 药 映 配 

上 这 指 稚 的 运行 结果 更 转 3 和 
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图 3.1 hsii 指 守 焙 制 的 直方 图 
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有 时 ， 人 大 们 常 以 频率 分 布 表 中 的 组 中 值 为 横 坐 标 、 以 氛 积 频率 为 纵 坐 标 绘制 累积 频 
率 析 线 ( 请 读者 用 plet 指令 自行 画 出 图 形 ). 

在 应 用 中 ,可 以 根据 频率 直方 图 (累积 频率 折线 图 ) 了 解 变量 的 概率 密 记 曲线 (分 布 
复线) 的 大 致 形态 ， 进 而 估计 变量 的 分 布 类 狠 . 在 得 出 初步 的 结论 后 应 继续 通过 分 布 参 
数 的 估计 和 分 布 氢 合 检验 得 出 更 为 精细 的 结论 . 

对 于 离散 型 随机 变量 ， 一 般 在 大 样本 条 件 下 求 样本 数据 的 频率 ， 画 出 不 同 数 据点 频 
率 值 的 火柴 杆 图 (或 散 点 图 )， 通 过 对 已 知 的 离散 分 布 的 分 布 律 图 形 作 出 变量 分 布 形态 的 
估计 ， 供 进一步 分 析 参 考 ， 这 里 不 再 装 述 ， 

下 面 举例 说 明 直 方 图 的 应 用 . 

{ 例 3.2】 用 模拟 试验 的 方法 直观 地 验证 定理 2.6 的 结论 ， 

假定 变量 X~ N(60, 25)， 用 随机 数 生成 的 方法 模拟 对 左 的 500 次 简单 随机 抽样 ， 
每 个 样本 的 容量 为 16， 利用 这 500 x 16 个 样本 数据 直观 地 验证 样本 均值 壹 的 质 样 分 布 
为 均值 等 于 60、 方 差 等 于 25/16 的 正 态 分 布 ， 即 和 ~- N(60,25/16)， 

名 用 随机 数 生成 的 方法 襟 拟 简单 随机 抽样 ， 

CLeSE 

Y=j|j]; 所 生成 一 个 存放 样本 数据 的 空 表 ( 维 数 可 变 的 动态 起 阵 ) 

for byYk= 1:500 和 血球 控制 ， 杭 环 执行 下 面 的 指令 500 次 ， 本 例 中 相当 于 500 次 招 
幸 

zx= nozmrznd(60,.5,16,1); 生生 成 一 个 来 自 N(60，25) 的 容量 为 16 的 样本 ( 列 向 
至 ) 

x= [x,xx]; 竺 将 料 本 数据 过 列 站 入 数 表 x,， 可 从 Matlab 的 变量 济 览 可 ( 友 orkspace) 
中 观察 这 个 数 表 

end 各 入 环 重复 标志 

加 计算 每 一 个 样本 的 样本 均值 ， 得 到 元 |, ， 却 :，…， 元 0 . 

2m6BD = mean(Xx)i 村 本 从 Matlab 的 变量 浏览 器 中 观察 这 500 个 数据 

号 绘制 500 个 样本 均值 二 ,二 2， …, 王 0 数据 的 直方 图 , 如 果 直方 图 是 单 峰 对 称 的 ， 
则 可 认定 样本 均值 记 的 抽样 分 布 是 正 态 分 布 . 

= ceilt1.87 < (longthfx) - 1)(275))， 皇 确 定 分 组 数 

h = histfit(xateanyk); 币 绘 制 附 正 态 过 考 曲 线 的 数据 五 | 江 ，，… 宛 io 的 直方 图 

S6t (hi( 二 )， “了 acecolor cy 3BdgaColor'，w)》 生 修 候 ,设置 直方 图 线 来 疾 色 与 靶 
充 色 

土 述 指令 的 运行 结果 见 图 3.3， 

元 用 这 500 个 样本 均值 数据 验证 这 的 均值 等 于 60， 方 益 等 于 25/16= 1.5625， 
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园 3.3 样 克 值 数据 的 直方 图 


抽 = aaa aha) 征求 站， 惠 9 下 mi 的 的 值 ， 区 二 大 为 际 前 这 例 慎 
站 wa aaepmn) 填 孙 开 1， 于 ii 二 0 时 方 天 凡生 作为 varE 的 近 低 村 
上 上 丸 指 念 的 运行 请 时 是 ， 
轴 , 到 
厂 丰 :人 133 
虱 三 
1415649 
上 逮 结 梁 表 明 ， 本 均值 于 的 抽样 苍 布 十 正 塌 的 ， 且 用 五 ， 和 aa，…， 于 的 梯 本 均 
值 与 樟 本 方 莽 近似 于 的 数学 期 望 与 方 凑 的 效果 较 好 ， 这 喜 直 现 地 验证 了 定理 2.6 的 结 
花 ( 更 严 六 的 ， 底 当 进行 分 布 拟 介 检验 与 参数 检验 ， 相 鞠 内 容 在 第 4 意 介 绍 ). 


3.1.3 缀 验 分 布 函数 


定 凡 3 (经 验 分 布 函数 | 从 有 1 着 下 二 由 一 本 二 定 儿 用 计 1 党 
元 而 是 须 序 统计 此 上 玖 人 人 “全 Xi a 的 驱 栅 值 . 全 


由 工 芝 卫 tii 
下 (二 二 2 到 届 玖 二 壹 汪 和 人 帮 区 下 有 二 起 


1 支 剖 更 让 入 
其 中 为 样本 数据 了 所 [rin， zs0) 的 师 数 ， 则 称 上 人) 为 补 翌 的 皮 到 分布 函 教 
色 验 分 布 数 在 了 点 的 函 履 估 其 实说 是 样 术 理 济 值 = 二 ， 的 梨 可 关 率 . 





。， 亲 。 扫 理 统计 与 1477.4 万 招 据 处 理 


经 验 分 布衣 数 是 一 个 右 连 续 的 非 降 贡 数 ， 且 0S 委 FI(z) 委 1 

经 验 分 布 郊 数 具 有 分 布 亢 数 的 性 质 . 我 们 可 以 将 经 验 分 布 谓 数理 解 为 是 以 等 概率 取 
:fx2,…， 7 的 离散 型 随机 变量 的 分 布 函数 ， 其 图 像 是 一 个 非 降 右 连续 的 阶梯 冰 教 . 经 
验 分 布 函 数 在 应 用 中 十 分 重要 ， 它 可 以 用 来 描述 总 体 分 布 函数 的 大 致 形状 . 下 面 的 
Trmserxo 定理 从 理论 上 证 明了 这 种 应 用 的 可 车 性 . 

定 再 3,1 {Tmmaeaxo 定理 ) 设 和 ，X2，…， 和 iid 一 F(z)， (>) 为 样本 的 经 
验 分 布 郊 数 ， 则 

Pim sa， |Fuo(z)-F(z)|=0}=1 

证 明 涉 及 较 多 的 概率 极限 定理 的 知识 ， 感 兴趣 的 读者 请 参见 文献 [7]. 在 定理 3.1 
中 ， 卫 , = su | Fu(z) 一 F(z) | 是 对 工 ( 关 ) 和 下 () 在 的 一 切取 值 上 的 最 大 差异 
的 衡量 ， P{lim P,=0j = 1 说明， 当 样 本 容量 ”足够 大 时 ， 对 一 切 *，F,(*) 可 以 按 给 
定 的 精确 度 接近 F(xz)， 这 一 事件 发 生 的 概率 为 1. 因此 ，Fzmeexo 定理 是 数理 统计 用 
样本 数据 对 变量 的 分 布 形态 及 分 布 参数 进行 推断 的 理论 依据 ， 

下 面 举例 说 明 经 验 分 布 函数 画像 的 MATILAB 绘制 及 应 用 . 

【 例 3.3】 例 3.1 中 253Mnsi 钢 含 硅 量 数据 的 经 验 分 布 郊 数 ， 

经 验 分 布 随 数 是 一 种 在 大 样本 条 件 下 估计 变量 分 布 形态 的 重要 工具 , 经 验 分 布 谓 数 
的 留 像 与 累积 频率 折线 图 在 性 质 上 是 一 致 的 ， 它 们 的 主要 区 别 在 数据 的 分 组 上 ， 经 验 分 
布 范 数 处理 得 更 为 细腻 ， 

应 用 中 可 以 将 经 验 分 布 阴 数 图 像 与 可 能 的 分 布 类 型 的 分 布 消 数 图 像 进行 对 比 ,得 出 
关于 变量 分 布 形态 的 结论 ， 

经 验 分 布 函数 图 像 MATLAB 绘图 指令 是 cdfplot， 其 输入 参数 为 样本 数据 向 量 , 有 
两 个 可 选 输出 参数 , 第 一 个 是 图 形 句 柄 ; 第 二 个 是 关于 样本 数据 的 几 个 重要 的 统计 量 ， 
包括 样本 最 小 值 、 最 大 值 、 均 值 、 中 值 和 标准 差 ， 

ClLear 

load hg1 

[h, stats] = cdfplot(hgl1) 

上 述 指 令 的 运行 结果 如 下 ， 

于 = 

154.0016 
SStS = 
min; .6400 
max: .9500 
mesany 曲 ,8026 





和 募 3 系 统计 估计 “。 闻 。 
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图 3,4 120 炉 25Mnsi 钢 含 硅 量 数据 的 经 验 分 布 函 数 图 像 


由 图 3.4 可 以 看 出 ,样本 经 验 分 布 冰 数 图 像 上 升 速度 较 快 ,均值 与 中 信 接 近 ， 图 像 
的 S 形 状 均衡 对 称 ,均值 处 函 教 值 约 为 0,5, 这 些 特 征 袁 明 ，25Mnsi 钢 的 含 硅 量 可 能 服 
从 均值 为 0,8026、 标 准 差 为 0.045 的 正 态 分 布 , 接 下 来 ,可 以 通过 正 坊 拟 合 检验 进一步 
证 实 这 种 推测 . 


3.1.3 五 数 概 播 与 box 


度量 数据 分 布 特征 常用 的 统计 量 包 括 样本 峰 庆 、 样 本 偏 度 和 百分比 分 位 数 , 在 
2.2.2 忆 已 经 给 出 它们 的 数学 定义 及 相应 的 MATILAB 洒 数 , 下 面 对 这 几 个 概念 作 进 一 
步 的 说 明 . 


样本 峰 度 KU ;是 对 单 和 分 布 昌 线 " 峰 的 平坦 程度 "或 者 说 * 曙 线 在 其 峰值 峙 近 的 


陡 录 程 度 "的 度量 , 对 计 样 本 峰 度 的 定义 ,不 同文 献 有 所 不 同 ， 一 般 定 义 为 KU- 守 - 3， 


此 时 正 态 分 布 具有 零 峰 麻 . 这 里 来 用 了 MATLAB 系统 中 样本 峰 度 的 定义 ， 正夫 分布 的 
峰 度 为 3. 当 变 量 的 样本 峰 度 大 证 3 时 ， 其 密度 曲线 比 正 态 分 布 密度 曲线 陡峭 ; 当 变 量 


的 衬 本 峰 度 小 于 3 时 ， 其 密度 出线 比 正 态 分 布 密度 曲线 平坦 , 这 里 ，， = 工 >' (zi - 





。 中 。 数理 统计 与 Hzd37.43 数据 处 理 


5)#(& > 0) 是 样本 的 上 阶 中 心 矩 B 的 观测 值 
样本 偏 度 SK = - 是 对 变量 的 分 布 围绕 其 均值 的 对 称 情况 的 度量 . 如 果 样 本 偏 度 
72 


等 于 0, 则 变量 分 布 的 形状 是 对 称 的 (如 正 访 分 布 ); 如 果 样 本 偏 度 大 于 0， 则 变量 分 布 的 
形状 是 右 尾 长 ,变量 取 值 的 密度 左边 偏 大 , 称 为 正 ( 或 右 ) 偏 的 ; 如 果 样 本 储 度 小 于 0, 则 
变量 分 布 的 形状 是 左 属 长 ， 变 量 取 值 的 密度 右边 偏 大 ， 称 为 针 ( 或 左 ) 依 的 ， 

样本 的 百分比 分 位 数 亦 称 为 样本 请 分 位 数 ， 表 示 如 下 ， 
_ [ap+1])， 各]， 
0.5Cztooy+zoo+D) EN， 
其 中 NN 为 正 整数 集 . 关于 样本 的 百分比 分 位 数 ， 应 用 最 多 的 是 样本 的 4 分 位 数 包 1 = 
im0.25， 旬 2 一 mn 和 QQ = ma ys， 分 别称 为 第 一 4 分 位 数 、 第 二 4 分 位 数 与 第 三 4 分 位 
数 ， 它 反映 了 有 1/74 的 数据 小 于 Qi， 有 174 的 数据 大 于 Q,， 而 有 一 半数 据 介 于 @@! 与 
包 ; 之 间 . 

搂 下 来 给 出 这 几 个 概念 在 估计 变量 分 布 形 态 方面 的 一 种 综合 应 用 一 五 数 概 揪 与 
box 图 . 

在 统计 应 用 中 ， 常 用 样本 数据 的 最 小 值 、 是 大 值 和 4 分 位 数 来 反映 变量 分 布 的 信 
息 ， 称 为 五 数 酸 括 ， 而 box 图 ( 箱 线 图 ) 则 是 五 数 概括 的 图 形 化 ， 兄 图 3.5， 


玉 户 


图 3.5 box 图 示 齐 


从 bex 图 可 以 看 出 样本 数据 的 如 下 特征 ， 并 可 以 此 来 推测 变量 的 分 布 特点 ， 

包 中 心 位 阁 . 中 位 数 Q; = mu ;所 在 的 位 置 即 为 样本 数据 的 中 心 ， 在 [ztb， 包 z] 秋 
[Q:，ztw] 中 各 包含 样本 数据 的 一 半 . 

@@ 散布 情况 . 全 部 样本 数据 位 于 [zl，xzt)] 内 ， 著 将 样本 孝 据 等 分 成 四 份 的 话 ， 
那么 在 区 间 [zo， 包 :]， [Qi， QQ ]， [@，， Qi] 和 [和 @，， zi 内 各 占 174， 各 区 间 较 晨 
对， 特别 是 [ztb，zto] 与 [ Qi，Q3] 较 短 时 ， 表 示 样 本 较 集 中 ， 反 之 就 较为 分 散 . 

侠 偷 度 , 如 果 卸 形 位 于 中 间 位 置 ， 中 位 教 又 位 于 和 矩形 的 中 则 位 置 ， 则 分 布 较 为 对 
称 ， 和 否则 是 偏 态 分 布 ， 如 果 和 矩形 偏 于 左 端 (或 右 端 )， 中 位 数 偏 于 矩形 左 端 (或 右 端 ) 可 
知 分 布 是 正 偏 (或 负 偏 )， 此 时 右 ( 左 ) 遇 较 长 . box 图 偏 度 解读 见 图 3.6， 

他 离 群 值 . 当 和 矩形 两 端 线段 长 度 相 差 过 大 时 ， 表 明 长 的 … 侧 有 特大 (或 特 小 ) 值 ， 称 
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PN 
7 AAA 和 ， 了 
本 ”人 
霸 仿 ( 负 仿 ) 对 称 右 偏 ( 正 偏 ) 


3.6 box 图 俩 庶 解 读 


为 离 群 值 , 用 " + "标记 ， 而 线段 终于 rt。 1{ 或 ra)， 甚 至 终于 zl。 (或 0 让 

【 例 3.4】 设 有 两 个 教学 班 ， 各 有 30 名 同学 ， 在 数学 课程 上 ，A 班 放 新 教学 方法 组 
织 教学 , 也 班 用 传统 方法 组 织 教学 ， 现 得 期末 考试 成 绩 如 下 ， 

A: 82，52，77，62，70，36，80,100，74，64，63，56，72，78，68，65，72，70，58， 
92，79， 吧 ，035，30，85，73，61，71，42，&D9 

也: 57，67， 侈 ，54，77，65，71，58，50，69，67，84，63，95，8 ，46，49， 的 ， 厅 ， 
606， 判 ， 和 5， 委 ， 的 ，65，68，76，72，48，72 
试 在 同一 些 标 轴 上 画 出 相应 的 bex 图 ， 并 对 两 个 班 的 成 绩 进 行 初 步 的 分 析 比 较 ， 

MATLAB 绘制 box 图 的 指令 是 boxplot， 

全 1 Ba 

= [82，92，77，62，70，36，80，100，74，64，63，56， 772， 有，68，65，972，70， 
58，92，79，92，65，56，85，73，61，71，42，89; 57，67，64，54，77，65，71，58，59， 
69，67，84，63，95，81，46，49，60，64，66，74，55，58，63，65，68，76，72，48，72] ; 

hoxplot(x ) 当 boxplot 驹 令 特 输入 起 阵 的 每 一 列 视 为 一 个 变量 (的 雯 本 数据 ) 

上 述 指 令 的 运行 结果 见 图 3,7， 


起 生机 悟 各 





Comumn Nunmber 


图 3.7 两 个 但 的 成 绩 的 box 图 





“到 ， 数理 统计 与 于 437.4 另 数据 处 理 


从 图 3.7 中 可 以 直观 地 看 出 ， 两 个 班 的 数学 成 绩 的 分 布 是 正 态 (对 称 ) 的 ，A 班 成 绩 
较为 分 散 ( 方 益 大 )，B 班 成 绩 则 较 集 中 ( 方 盖 小 ). A 班 成 绩 明显 高 于 了 班 (均值 比较 , 并 
卫 A 班 25% 低 分 段 上 限 接 近 了 班 中 值 线 ，A 班 中 值 线 接近 B 班 24% 涡 分 段 下 限 )，A 班 
的 平均 成 绩 约 为 70 分 (中 值 ),，B 班 约 为 6 分 (中 值 )，A 班 有 一 名 同学 的 成 绩 过 低 ( 离 
群 ), 而 了 B 班 成 绩优 秀 的 只 有 一 人 ( 离 群 ). 需要 注意 的 是 ,从 图 3.7 中 我 们 不 能 得 出 新 教 
学 方法 一 定 优 于 传统 教学 方法 的 结论 ,因为 我 们 并 不 知道 两 个 班级 原 有 的 数学 基础 是 企 
样 的 . 


3.2 变量 分 布 参数 的 估计 


3.2.1 参数 估计 的 方法 


本 小 节 讨论 参数 估计 问题 ， 即 利用 抽样 信息 来 估计 变量 的 分 布 参数 或 者 参数 的 某 个 
函数 ,在 参数 估计 问题 中 , 我 们 总 是 假定 变量 具有 已 知 的 分 布 形式 ,未 知 的 仅仅 是 一 个 
或 几 个 参数 , 然而 ， 变 量 的 真 分 布 完 全 由 这 些 参数 所 决定 ,因此 通过 估计 参数 可 以 估计 
变量 的 真 分 布 ( 有 时 我 们 仅仅 需要 估计 这 些 参 数 ). 

设 变量 X 的 分 布 函数 F(z;9) 的 形式 已 知 ，9 为 待 估 参 数 (8 是 有 限 维 向 量 ). 为 估 
计 8， 抽取 X,,X,…, 和 ,， 构 造 出 适当 的 统计 量 入 Xi，X，， …, 和 )，8 与 9 有 相同 的 维 
数 和 取 值 范围 ,每 当 有 了 样本 Xi, X，，…, 和, 的 观测 值 ， 就 代入 函数 条 (X,…, 三 ) 算 出 
一 个 值 ,用 来 作为 9 的 估计 值 . 

为 着 这 样 特定 目的 而 构造 的 统计 量 色 叫做 参数 8 的 估计 量 . 

参数 估计 常用 的 方法 是 矩 方法 和 极 大 似 然 法 . 
3.2,1,1 和 矩 估 计 法 

矩 估 计 法 是 K.Pearson 在 19 世纪 提出 来 的 ， 是 一 种 基于 简单 的 “替换 "思想 建立 起 
来 的 估计 方法 . 

在 Trueerxo 定理 的 基础 上 可 以 证 明 ， 样本 矩 4, 傅 概率 收 敏 于 变量 和 的 上 阶 径 
匹 (入 )， 样 本 中 心 给 B, 依 概 率 收 敏 于 变 重 文 的 阶 中 心 蛤 已 (和 -下 (X)) 因此 ， 当 样 
本 容量 ”很 大 时 , 样本 和 抢 的 观察 值 比较 谷 近 变量 的 相应 矩 ， 就 可 以 用 样本 矩 去 估计 变量 
的 相应 矩 , 这 是 矩 估 计 法 的 基本 数学 原理 . 


例如 ， 用 样本 阶 拭 At = 十 > 难 作 为 变量 的 太 阶 抵 亚 (X4) 的 估计 其 ， 用 样本 上 
i=1 


阶 中 心 矩 Bl， = 十 YY(X; - 台 )* 作为 变量 的 & 阶 中 心 矩 E((X ~ B(X))5) 的 估计 量 
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抢 估 计 的 一 般 方 法 是 : 设 变量 的 分 布 函数 含有 大 个 未 知 参 数 六 ，…, 员 ,那么 它 的 前 
开 阶 征 mAi( 必 要 时 也 可 以 是 中 心 矩 ) 一 般 都 是 这 上 个 参数 的 函数 ， 记 为 
牛 二 9 
假如 能 从 这 个 方程 中 解 出 
多 -er GEL2 有 
那么 用 谱 Am, 的 矩 估计 量 A; 分 别 代 奉 上 式 中 的 诸 凡 ， 即 可 得 诸 9 的 矩 估 计量 
外 = 态 (4 A) (= 2 大)， 
【 例 3.5] 设 变量 导 的 均值 m 和 方差 斑 都 存在 ，r 和 星 均 未 知 ， 又 设 X，X，…， 
忆 ii.d. 一 X, 求 上 和 呈 的 矩 估 计量 ， 
解 因为 变量 X 的 分 布 中 只 含 两 个 未 知 参 数 上 和 咯 ， 故 需求 出 变量 X 的 一 阶 、 二 
阶 矩 
AI 三 忆 (人 一 及 
人 
由 和 插 估 计 法 ， 用 样本 矩 去 蔚 换 总 性 矩 ， 即 令 
天 = 人 





外 和 
十 户 三 岂 ， 
解 上 述 方程 组 ,得 AP 和 的 矩 估计 最 分 别 为 


本 题 也 可 以 用 样本 的 一 阶 中 心 阶 于 > (X ~ 骂 )2 直接 去 估计 总 体 的 二 阶 中 心 队 


D(X)= 呈 ， 

第 估计 法 简便 易 行 ,使 用 时 并 不 需要 事先 知道 变量 的 分 布 . 但 是 ,在 变量 分 布 类 型 
已 知 的 场合 ,， 矩 估计 法 没有 充分 利用 变量 的 分 布 所 提供 的 信息 . 一 般 场 合 下, 矩 估 计量 
不 具有 唯一 性 ， 如 泊 松 分 布 参数 的 第 估计 量 既 可 以 基 样 本 均值， 又 可 以 大 衬 本 方 关 
3,2,.1.2 极 大 似 然 估计 法 


首先 举例 说 明 极 大 似 然 估计 法 的 教学 原理 ， 

【 例 3,6 设 有 甲 、 乙 两 个 布袋 ， 甲 袋 中 有 99 个 白 球 和 1 个 轴 球 ， 乙 袋 中 有 1 个 自 
球 和 99 个 黑 球 , 由 于 某 种 原因 已 不 能 识别 哪 一 个 是 甲 袋 , 那 一 个 是 乙 袋 , 你 能 否 用 统计 
的 方法 识别 出 来 ? 
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下 面 对 这 一 问题 进行 数学 描述 与 分 析 - 
不 久 设 灾 量 X 表示 红 中 的 折 于 娄 风 ~| 。 12 | ，， 是 未 知 的 分 布 参数 ， 其 了 


值 依赖 于 变 基 X 代表 的 是 甲 袋 中 的 白 球 数 还 是 乙 航 中 的 白 际 数 , 显然 ,变量 X 代表 的 
是 甲 和 袋 中 的 白 球 数 与 训 = 997100 是 等 价 的 ， 变 量 和 代表 的 是 乙 上 中 的 白 球 数 与 情 = 
1/100 是 等 价 的 . 

我 们 可 以 通过 抽样 ( 侍 取 一 虏 ， 从 该 袋 中 任 取 一 球 ， 观 察 其 颜色 ) 的 方法 来 确定 = 
9%9/7100 还 是 关 = 17100. 

设 事 件 4 表示 “取出 的 一 袋 为 甲 袋 "， 事 件 也 表示 “从 红 子 中 取出 的 是 白 球 ”， 则 

P(4)=0.5，P(B14)=9%/100， P(B1A)=17100. 

假定 取 遇 的 是 白 球 , 在 已 知 取 首 的 是 白 球 的 条 件 下 ,判断 该 球 来 自 甲 锚 还 是 乙 和 袋 的 
问题 ， 可 由 办 叶 斯 公式 ， 遂 过 比较 概率 P(4 |) 和 了 ( 喜 | 瑟 ) 的 大 小 来 作出 判 浙 . 由 于 在 
一 次 试验 中 大 概率 事件 容易 发 生 ， 因 此 , 若 P{41B8)>P( 有 |B)， 则 该 球 来 自 甲 袋 ; 车 
P(4|B)<P(41B)， 则 该 妹 来 自己 并 ， 


因为 
_PUJAB)-  P(4A)P(BIA) 
P(AiB) PUB) PP(A)P(BIA4)+EB(AJP(EB| 太 
P( 瑟 1B)= 了 CAB) - 站 人 


P(B) PaA)P(B|1A)+EfA)PIBHA7 
这 两 个 式 子 的 分 母 相 同 ,分 子 中 P{4)= P( 有 和)， 故 其 大 小 取决 于 PUB1A) 和 P(B1X) 
的 大 小 , 而 P(B14) 和 P(BIA) 的 取 值 恰好 等 于 变 芋 X 的 分 布 参数 请 的 两 个 可 能 的 取 
值 . 这 说 明 参 数 的 取 值 同 赣 概率 P(B14) 与 忆 (B 了 | 二 ) 之 闻 的 大 小 是 相互 决定 的 , 即 户 = 
9%/100 等 价 子 P(4A|3B)>PAIB); 六 =17100 等 价 于 P(A|B)7>P(A|B)， 

通过 计算 可 知 ，P(4AiB)>P(A|1B)， 因 此 请 =997100,， 即 现在 取出 的 这 一 狼 是 甲 
盘 . 

概括 这 里 的 思想 方法 ， 就 可 以 得 到 极 大 亿 然 估计 法 的 数学 原理 一 “大 概率 原理 ; 大 

概率 事件 在 一 次 试验 中 容易 发 生 . 或 者 说 ,在 一 次 试验 中 已 然 发 生 的 事件 具有 较 大 的 要 
素 ， 而 谈 量 的 分 布 参数 有 助 于 关于 该 变量 的 大 概率 事件 的 发 生 . 

接 下 来 讨论 参数 的 极 大 似 然 估计 的 方法 . 

设 X，X2 id. 一 并 并 记 变 量 左 的 概率 分 布 律 或 概率 密度 函数 为 p(z; 
012, 色 )， 其 中 国 ,2 ,8 是 变量 的 下 个 未 知 参 数 ， 

又 设 对 样本 (1，X2，…, 已 ) 进 行 一 次 观测 得 到 样本 值 (zi, rz, …, z, )， 这 相当 于 
# 个 相互 独立 的 事件 | 和 = z 寺 | = xj， …，{1X = zj 在 一 次 试验 中 同时 发 生 ， 即 
事件 | = zi， X2=xz2 Xu=T 应 该 有 较 大 的 概率 值 ， 
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(也 和 是 离散 变量 的 情形 
根据 前 述 极 大 似 然 估 计 法 的 数学 原理 ， 可 念 


PE = zz PE=els= 工 z(zr 人 0) 
5 上 F= 


达到 最 大 值 ， 此 时 对 应 的 参数 值 包 ， 包 ，…, 入 即 为 参数 真 值 8, 6, …, 9, 的 估计 值 . 
(2) 和 是 连续 变量 的 情形 
对 连续 变量 考虑 概率 P1X= zl1，X3 = zy，…， 和 = xy, 上 | 是 没有 意义 的 , 因此 ， 我 
们 考虑 随机 点 (XI ，X2,…， 矶 ) 落 入 以 点 (zt zz ) 为 顶点 ，Ar Ar pyAz 为 
边 长 的 = 维 抢 形 区 域 G 内 的 概 率 ， 这 个 概率 近似 等 于 


王 代 车 其 | = TTa(zi 及 ， 玉 ，…， 页) ， TTAz 
并 1 一 1 
同 理 ， 可 令 这 个 概率 达到 最 大 值 ， 此 时 对 应 的 参数 值 负 ， 包 ,…, 录 即 为 参数 真 值 8 ,0，， 
… 6, 的 估计 秆 . 
注意 到 Ax (i 12,…,m) 与 9 0， 无 关 ， 使 了 atrr 0 bp)TTAz 
赤 上 


[| 


达到 是 大 值 的 点 (名 ,的 ，- - 包 ) 与 使 了 [ 2; gu 9 外 ) 达到 最 大 全 的 点 相同 ， 而 


后 者 在 表达 形式 上 连续 型 变量 与 宛 散 型 变量 是 一致 的 ， 因此 给 出 下 面 的 定义 ， 
定义 3.2 称 样本 <1，zx，…，z。 的 联合 概率 函数 (概率 分 布 律 或 概率 密度 函数 ) 


LO = Lo za ai 及 = 末 2eg) 
为 参数 0 = (6 ， 9，…，8. ) 的 亿 然 本 数 ， 一 
设 @ 为 参数 0 所 有 可 能 的 取 值 范围 ， 称 为 参数 空间 ， 入 让 在 统计 量 SC 使 得 
EL(zbmzai 的 =maxL(zb zig)， 


则 称 是 参数 揭 极 大 似 然 估 计量 [Maximum Likeliheod Eastimate，MLE) . 

求 似 然 函 数 工 (9) 的 极 大 值 一 般 人 情况 下 要 先 求 其 驻 点 ， 涉 及 导数 运算 . 由 于 似 然 丽 
数 工 (9) 的 数学 表达 式 往往 是 积 与 宕 的 结构 ， 其 导数 运算 会 比较 宛 繁 ， 不 方便 求 驻 点 ， 
而 对 数 函 数 lnz 是 z 的 单调 增 函数 ， 因 此 对 数 似 然 函 数 lnL(6) 与 似 然 函 数 工 (的 在 同 -- 
点 处 取得 最 大 值 . 又 对 数 能 够 将 积 运算 转化 为 和 送 算 ， 将 医 运 算 转 化 为 积 运算 ， 从 而 使 
似 然 画 数 工 (9) 的 数学 表达 式 线性 化 ,方便 导数 与 求 驻 点 运算 . 于 是 ， 通常 情况 下 应 当 
先 将 似 然 画 数 工 (9) 转 化 为 对 数 似 然 函数 inL (0)， 然 后 再 求 驻 点 

[ 例 3.7] 求 事件 A 发 生 的 概率 思 的 极 大 似 然 估 计 ， 
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解 令 X= | “4 其 忠信 表 示 事 件 人 发生 ， 则 X 的 概率 因数 为 


2(z3p)= 拓 (下 (zz=01)， 
故 参 数 训 的 似 然 函 数 为 
了 (六 ) 一 Ta 一 汶 ) 二 = p2sd 一 让) 富 0-a， 
对 数 似 然 数 为 
InL(2) = (2 jnp+fn - 半 =jmd 一 放 ) 
对 六 求 导数 ， 令 导数 为 0， 就 有 





解 得 In7L (2) 的 驻 点 为 
= 了 = 
又 在 驻 点 处 有 
2 四) 一 姑 
3p2 (1 厅 < 


所 以 ， 驻 点 即 为 极 大 值 点 , 即 户 的 极 大 似 然 估 计 为 = 让 ， 
{ 例 3.8]】 设 X~ Na o),， 求 上 和 oo 的 极 大 似 然 估计 ， 


.网 似 然 函数 为 





解 _ 正 态 总 体 N(n, o2] 的 密度 函数 是 一 








V2rc 
(= -ie 卫 站 
工 ( 2= 开 这 -| 了 。 e 好 
和 1 7 2ro7 ” 





将 其 取 对 数 ， 并 令 关于 pr，c 的 一 阶 导数 为 零 ， 则 得 
衬 只 
anLtae) 二 思 (r = 0 


9 
alnLfA ec 认 
2 和 人 一 J5+ 2(c (an - 疗 = 几 ， 
解 此 关于 A， 号 的 方程 组 ， 得 驻 点 
一 立 一 忆 rr ao = 王 (= 天 . 


又 可 求 得 对 数 似 然 函 数 的 二 阶 导 丽 数 矩阵 是 非 正定 抵 阵 ， 因此 驻 点 处 好 为 伺 然 函数 的 极 
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大 值 点 处 ,并 将 z 的 样本 表达 式 代入 z” 的 驻 点 表达 式 ,得 z 与 e 的 极 大 似 然 估计 为 


4= 工 二 了 Yizi 22 = 二 > (xz 一 到 ) 
3 ia 如 i 
[ 例 3. 凡 设 X~U(a， 的 求 a, 二 的 极 大 似 然 估 计 ， 
解 由 于 的 密度 函数 为 





(在 一 @) 1 4S 工 区 户 ， 
Fr) 0 其 他 
故 似 然 画 数 为 
一 本 本 和 去 了 | 委 二 3 
Le 
其 他 ， 
显然 
9L(ei6h 籽 
了 Q (Dai>0， 


即 Le;6) 是 关于 a 的 单调 增 函 玫 ， 因此， 为 使 L(a,) 达 到 最 大 ,应 使 < 最 大 . 同 理 
3Lktab) -mm 0 
日 人 _ 风 % 十 主 和 
即 工 (aa,5) 是 关于 了 的 单调 减 巩 数 , 因此 , 为 使 LUa,5) 达 到 最 大 ,应 使 最 小 . 
又 对 于 任意 的 样本 观测 值 2 Armyz， 恒 有 a 委 YODS 宏 了 TO0 实 人 必 委 z 委 有 于 
是 ，a，8 的 极 大 似 然 估计 分 别 为 z = rz， 吕 = z0。 
根据 前 而 几 个 例题 的 讨论 ,可 以 概括 出 求 极 大 似 然 估计 值 的 一 般 步 双 ， 
提 明确 变量 的 分 布 律 或 密度 函数 ; 
人 母 写 出 似 然 冰 数 工 (全 


全 求 似 然 函 数 工 (6) 的 最 大 值 点 ， 得 各; 


@@ 应 用 问题 中 ,将 样本 数据 代入 生 ， 求 出 具体 的 估计 值 ， 

值得 注意 的 是 ,求解 对 数 似 然 方程 组 是 在 假定 其 可 导 并 且 导 数 变 号 的 基础 上 的 ， 如 
便 3.7 和 例 3.8, 若 不 满足 这 一 条 件 ， 需 针对 似 然 函数 上 (66,,…, 9 ) 的 单调 性 ， 利 用 
极 大 似 然 佑 计 的 基本 原理 直接 进行 L(8 , 9,,…, 8 ) 的 最 天 值 问题 的 讨论 ， 如 例 3.9， 

极 大 似 然 估 计量 有 一 个 简单 面 有 用 的 人 性 质 ; 设 9 的 函数 g = g(g) 是 @ 上 的 实 信函 
数 ， 且 有 唯一 反 函 数 . 如 果 8 是 9 的 极 大 似 然 估计 量 ,， 则 g( 人 也 是 g(9) 的 极 大 似 热 估 
计量 . 这 个 性 质 称 为 极 大 似 然 估计 的 不 变性 . 根据 这 一 性 质 可 以 使 一 些 复杂 结构 的 参数 
的 极 大 亿 然 估计 问题 简单 化 . 

极 大 似 然 估计 法 是 在 变量 分 布 关 型 已 知 的 情况 下 使 用 的 一 种 参数 估计 方法 ， 一般 
地 ， 用 极 大 但 然 法 所 得 的 估计 的 性 质 比 用 答 估 计 法 所 得 的 要 好 ， 故 通常 多 用 极 天 似 然 
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法 ， 

MATLAB 进行 极 大 似 然 估计 的 函数 为 mle. 其 调用 客 式 灵活 多 样 ( 详 见 附录 B)， 这 
里 仅 介 绍 一 种 最 基本 的 调用 方法 : 

[Phat，pci] = mlietdeatar “distribution  ，ddist， “alpha ，ar “ntcial5“， ny) 
其 中 ， 输 出 参数 phat 是 指定 分 布 的 参数 的 极 大 似 然 估计 值 (多 参数 时 为 行 向 量 )，peci 是 
参数 的 区 间 估 计 的 置信 上 限 和 下 跟 ( 与 参数 对 应 的 二 维 列 向 量 ， 可 以 缺 湖 ). 输入 参数 
data 是 样本 教 据 向 量 { 不 可 缺 省 ) 引用 参数 'dqistribution 及 其 取 值 dist 设置 变量 的 分 布 
类 型 { 应 用 中 dist 要 用 具体 的 分 布 名 称 字符 串 蔡 换 并 用 单 引 号 引起 )， 二 者 要 成 对 出 现 
《可 以 同时 缺 省 ， 缺 省 时 分 布 类 型 默认 为 正 态 分布 ). 引用 参数 *alpha' 及 其 取 值 g 设置 区 
间 佑 计 的 显著 性 水 平 ， 二 者 要 成 对 出 现 { 可 以 同时 缺 省 ， 缺 当时 默认 为 0.05， 即 置信 水 
平 为 0.95). 引用 参数 'ntrials" 及 其 取 值 n 仅 在 分 布 类 型 为 二 项 分 布 时 引用 (对 于 其 他 分 
布 可 以 缺 省 )， 设 置 二 项 分 布 中 试验 的 次 数 ， 

【 例 3.10】 通常 ， 引 力 常 数 的 测定 值 服 从 均 俏 为 、 标准 莽 为 c 的 正 态 分 布 , 某 人 
在 实验 中 使 用 金 球 测 定 引力 常数 ，6 次 测定 观察 信 为 : 6.683，6,681，6.676，6.678， 
6,679，6.672. 试用 极 大 似 然 估计 法 对 未 知 参数 上 和 =z 作出 估计 ， 

解 用 mie 函 数 进 行 计算 . 

局]eaT 

xz=[6.683 6.681 6.676 6.678 6.679 6.6721; 

Phat = mlefx, “distribution “norah，“alpha“，0.05) 

上 述 指 今 的 运行 缚 果 是 ， 

phat = 

6.6782 0.0035 
即 金 球 测定 的 w 估计 值 为 6.6782，c 的 估计 值 为 0.0035. 其 实 ,此 例 计 算 中 mle 数 的 
调用 可 以 简化 为 b= mlefx)， 


3,2,2 估计 量 的 性 能 分 析 

在 参数 估计 问题 中 , 在 可 选择 的 估计 量 中 哪个 更 好 ， 如 何 评价 和 控制 估计 误差 ， 这 
是 除 参数 估计 的 方法 外 必须 回答 的 两 个 问题 . 本 小 节 讨论 第 一 个 问题 ， 在 下 一 小 节 讨 论 
习 一 个 问题 ， 


在 分 析 和 评价 估计 其 性 能 的 时 候 , 常用 的 准则 包括 无 偏 性 准则 、 均 方 误差 准则 和 相 
全 性 准则 ， 


3.2.2.1 无 偏 性 准则 
估计 量 是 随机 变量 ， 对 于 不 同 的 样本 值 会 得 到 不 同 的 估计 值 . 我 们 希望 估计 值 在 未 
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知 参数 真 值 附近 摆动， 而 它 的 期 望 值 等 于 未 知 参数 的 真 值 , 这 就 导致 无 偏 性 这 个 标准 ， 

定义 3.3 (无 偏 估计 ) ” 设 儿 Xi,…,X ) 是 变量 X 的 未 知 的 一 维 参 数 6 的 估计 量 ， 
车 瑟 ( 们 =6， 则 称 为 8 的 无 偏 估计 .否则 称 为 有 偏 估计 . 

定义 3.4 ( 渐 近 无 偏 估计 ) 设 欠 X，…,X ) 是 变量 X 的 未 知 的 一 维 参数 0 的 有 偏 
估计 基 ， 但 是 lim 巨 ( 急 = 9， 则 称 9 为 8 的 渐 近 无 偏 估计 . 

下 面 , 不 加 证 明 地 列举 出 关于 无 仿 性 的 几 个 重要 结论 ， 

Q 无 论 变 量 X 服从 何 种 分 布 ， 样 本 的 有 阶 原点 撼 4t = 二 > Mt(i = 1,2,…，z) 是 
变量 X 的 阶 原 点 矩 下 ( 好 ) 的 无 偏 估计 .自然 , 吉 是 E(X) 的 无 偏 估 计 ， 

@@ 无 论 变量 X 服从 何 种 分 布 , 术 本 (修正 ) 方 差 S? = 一] > 1(Xi - 丈 )? 是 变量 X 
的 方差 oz 的 无 偏 佑 计 . 

@@ 样本 方差 (二 阶 中 心 矩 ) B; 不 是 变 最 的 方 郑 "的 无 偏 估计 ， 但 是 limE(B2)= 
2， 所 以 B; 是 的 渐 近 无 偏 估计 . 
@ 样本 标准 差 S = | 一- > (Xi - 丈 )? 不 是 变量 X 的 标准 差 e 的 无 信 估 计 . 但 


基 , 在 变量 的 正 态 性 假设 下 ,可 将 样本 标准 差 修正 为 zs= C,S，v 。 是 v 的 无 偏 估计 ， 其 









EL 
"2 


中 
渐 近 无 偏 估计 ， 

无 偏 性 准则 是 对 估计 量 的 一 个 杜 素 要 求 . 无 仿 性 估计 的 统计 意义 是 指 佑 计量 不 产生 
系统 性 的 偏差 , 例如 ， 用 样本 均值 这 作为 变量 均值 w 的 估计 时 ,由 于 丈 是 随机 蛮 量 , 故 
在 一 次 估计 中 ， 的 实现 值 与 其 真 值 之 问 存在 偏差 苑 - k 这 种 偏 莽 是 随机 的 ， 虽 无 法 说 
明 一 次 估计 所 产生 的 偏差 , 但 是 对 同一 统计 问题 大 量 重 复 使 用 广 佑 计 z 时 ,实际 产生 的 
偏差 束 - pz 随机 地 在 0 的 周 鲜 波动 ,不 会 产生 系统 的 丈 偏 大 (小 ) 于 上 的 情况 . 

渐 近 无 偏 是 指 估计 量 存在 系统 性 的 偏差 , 但 是 这 种 系统 性 偏差 承 着 样本 容量 的 增加 
面 趋向 于 消失 . 


3.2.2.2 灼 方 误 盖 准 则 


如 果 在 样本 容量 ” 相同 的 情况 下 ， 纺 的 观察 值 较 包 的 观察 值 更 密集 在 实 值 9 的 附 
近 ， 我 们 就 认为 用 入 对 8 进行 的 估计 优 于 用 入 对 8 进行 的 估计 ， 








称 为 正 态 标准 差 的 无 位 系 数 , 由 于 limCu=1 所 以 S 是 z 的 
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定义 3.5 { 均 方 误差 准则 ) “ 设 儿 = 红 X ,和 …, 稀 ) 是 变量 X 的 未 知 的 一 维 参 数 f 
的 估计 量 ， 称 MSE 几 = 五 (- 97?2 为 估计 量 罗 的 均 方 误 莽 . 对 于 参数 9 的 任意 两 个 估计 
量 久 和 久 , 若 MSE 太 扩 MSE 人 且 在 参数 空间 中 至 少 有 一 个 甸 ， 使 不 等 式 中 的 小 于 号 
“<" 严 格 成 立 ， 则 称 在 均 方 误差 意义 下 包 是 优 于 针 的 估计 ， 

定理 3.2 ( 均 方 误差 的 分 解 定理 ) MSFE 缚 = Var( 们 +[E( 人 -9 了 ， 

事实 上 

MSE 及 = E(( 人 -0937= 下 (人 -开罗 +E( 的 -0)2) 
=E(( 人 -E( 的 )2)+2E(( 和 -下 (人 )(E( 的 -9))7+[E( 的 -6]2. 
由 于 
瑟 ((- 开 ( 们 )(E( 们 -9))=0， 
所 以 
MSE 用 = Var( 们 +[E( 的 -8]2. 

著 和 是 8 的 无 偏 估计 ， 则 MSE 请 = Var( 轨 、 

一 个 参数 往往 有 不 止 一 个 无 僵 估 计 . 由 均 方 误 莹 的 分 解 定理 不 难 理解 ,无 偏 估计 以 
方 莽 小 者 为 好 ， 

定义 3,6 (最 小 方差 无 信 估 计 ) 设 久 (XXX ，…,X ) 是 变量 X 的 未 知 参数 0 的 一 
个 估计 量 , 若 多 满足 ， 

全 ( 扩 )=9， 即 因为 8 的 无 侦 估 计 ， 

@ Var( 的 ) 芝 Var( 轴 ,8 X，…, 基 ) 是 8 的 任意 一 个 无 偏 估计 ， 
则 称 多 为 4 的 最 小 方差 无 伪 估 计 ( 也 称 最 佳 无 偏 估计 )， 

请 注意 下 面 几 个 关于 最 小 方差 无 偏 估计 的 结论 : 

@ 最 小 方差 无 候 估 计 可 能 存在 ， 也 可 能 不 存在 ; 

@@ 对 于 正 态 变 量 X， 样 本 均值 这 和 祥 本 方差 S 是 w 和 的 最 小 方差 无 偏 估计 ; 

登 极 大 似 然 估 计 往往 是 均 方 误 盖 最 小 的 估计 

均 方 误差 准则 是 最 为 常用 的 估计 量 性 能 评价 准则 ， 可 以 这 样 理解 它 的 统计 意义 ; 设 


纺 9 的 一 个 估计 ， 由 于 估计 量 是 随机 变量 , 故 在 一 次 估计 中 8 的 实现 值 与 其 真 值 之 问 
存在 偏差 - 6 我 们 希望 这 种 偏差 尽 可 能 的 小 . 但 是 由 于 偏差 是 随机 变量 ， 因 此 ， 不 能 
根据 一 次 估计 时 偏差 儿 - 2 的 大 小 来 判断 估计 的 优 狼 ， 面 应 根据 对 同一 个 参数 用 同一 
个 估计 量 进行 的 多 次 估计 的 “平均 偏差 "来 判断 .为 避免 求 平均 偏差 时 及“ 8 的 正 负 信和 相 
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互 抵消 ,我 们 使 用 (入 - 8)2 表示 一 次 估计 中 的 (平方 ) 误 差 , 于 是 ，MSE 让 雪 MSE 记 表 
明 多 次 用 估计 和 和 入 去 估计 2 时 ， 合 的 观察 值 较 刀 的 观察 值 更 密集 在 真 值 g 的 附近 ， 
换 句 话说 , 均 方 误差 准则 说 明 ， 当 使 用 不 同 的 估计 量 仙 和 包 去 估计 9 时 ,其 均 方 误差 越 
小 ,估计 的 效果 越 好 ; 反之 ， 均 方 误 莹 越 大 ， 估 计 的 效果 越 差 ， 
3.2.2.3 ”相合 性 准则 

无 偏 性 准则 和 鸭 方 误差 准则 是 在 样 本 容量 ” 固定 的 情形 下 讨论 估计 量 优 劣 的 . 设 
变量 X~ F(z)， 姑 (xz ) 为 祥 本 的 经 验 分 布 函数 ， 由 Tomeeaxo 定理 

P{Iim sup | 色 (z)- F(z)| =0}=1， 

当 样 本 容量 ”趋向 于 无 穷 时 , 禅 本 的 经 验 分 布 函数 以 概率 1 一 致 收 伍 于 变量 的 分 布 函 
数 . 也 就 是 说 ， 当 样本 容量 ” 趋向 于 无 穷 时 ,样本 中 包含 的 关于 变量 分 布 的 信息 不 断 增 
加 ， 以 致 充分 到 可 以 将 变量 分 布 刻画 到 任意 精确 的 程度 , 因此 ， 我 们 有 理由 要 求 ， 一 个 
“好 的 "估计 量 , 当 祥 本 容量 * 趋向 于 无 穷 时 ， 在 一 定 的 数学 意义 下 收 敏 于 被 估 参 数 ， 


定义 3.7 (相合 估计 ) 设 各 XXX，…,X ) 为 参数 的 估计 量 , 若 对 任意 的 >0， 
有 


tmP| 皮 -8| 关 sj = 0， 
而 且 这 对 9 的 一 切 可 能 取 的 值 都 成 立 ， 则 称 多 是 参数 8 的 一 个 相合 估计 ， 
相合 性 准则 是 对 一 个 估计 量 最 基本 的 次 求 . 它 说 明 ， 随 着 样本 容量 的 增 大 ,一 个 “好 


的 "估计 量 应 该 越 来 越 掌 近 参 数 b 的 真 值 ， 使 绝对 偏差 18 - 6| 较 大 的 概率 越 来 越 小 . 
如 果 一 个 估计 量 没 有 相合 性 那么, 不论 祥 本 取 多 大 , 我们 也 不 可 能 把 未 知 参 数 估计 到 
顶 定 的 精度 ,这 种 估计 量 显然 是 不 可 取 的 ， 

下 面 , 不 加 证 明 地 列举 出 关于 相合 估计 的 几 个 重要 结论 ， 


QD 相 全 估计 具有 不 变性 . 即 当 轨 ， 加 ，…， 条 分 别 是 0，92，…， 尔 的 相合 估计 时 ， 


若 g( 人 ， 0.， 人 有 ) 为 连续 函数 ， 出 (和 刀 ， 入) 是 中 ， 包 ， 9 及 ) 的 相合 估 
计 ， 


@ 样本 的 和 阶 原点 矩 As = 二 >) 是 变量 X 的 阶 原 点 矩 了 (Xe) 的 相合 售 计 ， 故 
样本 均值 允 是 变量 均值 x 的 相合 估计 
@ 樟 本 的 二 阶 中 心算 B。 = 1 >)(X - 丈 ): 是 变量 X 的 方差 oz 的 相合 估计 





@ 祥 本 方 郑 8? = 上 (和 - 史 ): 是 变 重 的 方 关 oz 的 相合 估计 ， 冬 本 标准 关 


下 一 上 
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5 - | 了 世 袜 (X - 允 ): 是 变量 的 标准 差 e 的 相合 估计 


加 事件 发 生 的 频率 是 其 概率 的 相合 估计 ， 
图 极 大 似 然 估 计量 往往 具有 相合 性 . 


3,2,3 估计 误差 的 评价 与 控制 


在 参数 估计 的 应 用 中 ,一 个 重要 的 问题 是 对 估计 误差 的 评价 与 控制 ,为 此 ,上 先 引进 
抽样 误差 的 概念 . 

定义 3.8 (抽样 误差 ) 设 为 总 体 X 的 未 知 参 数 , 和 = 和 zi zz) 是 的 无 
偏 估 汁 量 ， 则 称 = = 1 - 人 | 为 估计 最 的 绝对 抽样 误 郑 ， 称 p= 人 为 估计 量 的 相对 抽样 训 


差 . 

一 个 无 偏 估计 量 的 抽样 误差 不 是 由 于 估计 量 自身 的 构造 产生 的 ， 而 是 由 于 抽样 方式 
和 样本 容量 的 原因 形成 的 ,是 参数 估计 中 不 是 错误 的 “错误 "， 在 参数 估计 中 产生 抽样 误 
差 是 钻 可 如 免 的 . 因此 对 参数 估计 的 抽样 误差 进行 分 析 和 控制 是 参数 估计 理论 与 实践 所 
必须 的 ， 

下 面 举例 来 说 明 估 计 误 差 的 评价 与 控制 原理 . 

【 例 3.11 讨论 用 样本 均值 于 估计 变 最 均值 时 忻 计 误 佐 的 评价 与 控制 . 

由 3.2.2 节 的 讨论 知道 ， 在 对 变 最 均值 x 进行 统计 估计 时 ， 样 本 均值 束 是 a 的 相 
合 的 、 最 小 方差 的 无 个 估 计量 . 即便 如 此 ， 由 于 随 桃 性 的 影响 ， 必 然 会 产生 一 定 的 估计 
误 次 , 用 | 坟 - zj| 表 示 所 产生 的 误差 (绝对 误差 )， 上 自然， 我 们 希望 能 够 将 误差 控制 在 一 
个 可 以 接受 的 范围 内 , 用 s(> 志 表示 这 种 女 度 ， 称 为 她 对 误差 限 或 边际 误 妆 ， 即 槛 求 
| 过 -Ap 委 s， 

也 是 由 于 随机 性 的 影响 ,对 于 指定 的 s， 我 们 无 法 保证 对 任何 一 次 抽样 都 有 
|[ 冀 下 | 委 e， 

于 是 ， 随 机 人 性 的 癌 题 还 项 要 随机 性 的 方法 来 回答 ， 我 们 不 去 预先 指定 边际 误差 s， 
转 而 考虑 采用 "大 概率 保证 下 的 误 获 控制 策 聊 "， 即 预先 约定 用 这 估计 xz 的 可 人 靠 性 概率 
B, 称 之 为 用 民 估计 产 的 是 信 水 平 ， 习 忆 上 记 8=1- ce， 并 称 。 为 用 于 估计 ， 的 风险 概 
束 或 显著 性 水 平 ， 那 么 此 时 产生 的 边际 误差 。 是 客 少 ? 用 数学 语言 描述 就 是 : 指定 BE 
(0,1)， 求 使 PH| 且 一 Ap 宝 sl 六 1- e 成 立 的 E， 

称 PH| 区 -Al| 委 slz1-x 为 用 估计 量 飞 估计 产 时 的 误 半 评价 与 控制 准则 ， 

这 属于 概率 问题 的 反问 题 ， 解 决 这 类 问题 的 基本 思路 是 求 已 知 分 布 的 分 位 数 , 将 准 
则 式 变形 为 Pf - s 多 况 - AS 引 节 1 -~ eg， 于 是 ， 为 确定 Es 的 值 ， 需 先 非 得 广 - 上 的 概率 
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分 布 的 信息 . 
在 关于 统计 量 及 其 抽样 分 布 问题 的 讨论 中 知道 ，- A 的 概率 分 布 需要 区 分 如 下 三 
种 情形 : 


由 正 态 变量 且 Var(X)= “已 知 ，U= 一 NI0,1)( 小 样本 应 用 ); 


:1 


5/ 广 


图 任意 变量 ，[" -= 和- 兴 <N(0,D( 大 样本 应 用 ) 


由 于 产 未 知 ,所 以 对 IT T 和 三 不 称 为 统计 量 ， 而 称 为 枢 轴 量 . 下 面 在 正 态 变量 


上 一 一 雪 妇 - ， 
得 o 未 知 的 假定 下 对 准则 武进 行业 变 的， 得 P| 天 捷 TS |>1- .通常 
将 。 等 分 为 上 、 下 双 便 显著 性 水 平 各 e/2， 妈 


四 正 态 变量 但 Var(X)= 一 未 知 ， 工 = 世 人 才 一 上 2 一 1){ 小 样本 应 用 ); 





<- 一 上 忆 > 
plT< -5 有 js PT>5 关 > 和 
于 是 
林 记 = -一 有 -op 
阳 拉 
解 得 sen-D， 
即 且 基 一 t1- 有 一 D 志 Se<2+ 2 一 D 太 |> 21-w， 


上 趟 表明 , 用 蕊 估计 请 上 时， 假如 进行 了 100 次 重复 估计 ， 可 以 保证 至 少 有 100(1- wx 次 
估计 的 误差 不 超过 二 20- 了 而 作出 这 个 判断 狐 


错误 的 概率 是 “， 

需要 指出 的 是 ， 由 于 枢 轴 量 构造 的 原因 ， 在 有 关 方 差 的 估计 问题 中 需要 进行 的 是 相 
对 误 莽 的 分 析 - 

【 例 3.12】 讨论 用 样本 方差 S* 估计 变量 方差 *” 时 估计 误差 的 评价 与 控制 ， 

同样 , 由 3.2.2 节 的 讨论 知道 ，S* 是 e“ 的 相合 的 、 无 偏 估 计量 ,又 已 知 在 变量 的 正 


加 2 
态 性 背景 下 ， 人 一 人 一 X2(a -1)， 于 是 ， 用 S? 估计 o 时 信 计 误差 的 评价 与 入 制 分 


， 即 | 基 一 着 | 委 与 -on -人 立 ， 


8 
va 人 


析 采 用 相对 抽样 误差 的 顾 念 . 由 于 BE(S2) = 52， 所 以 1-p<S<ltp， ”是 一 个 小 的 
正 数 .为 讨论 方便 ， 记 为 
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2 
p- 委 SiSp， (p- 苹 P+ 


称 pe_(p+ ) 为 相对 误差 下 (上 ) 良 ， 
同样 采用 “大 概率 保证 下 的 误差 控制 策略 "， 不 去 预先 指定 相对 误差 限 p_ 和 p， 而 
是 指定 估计 的 置信 水 平 1 - “， 求 使 准则 式 


2 
P|e-<s<p*j>1-。 


2 
成 立 的 p- 和 6，， 由 于 名 二 所 3 一 2(a -1)， 对 准则 式 进行 枢 轴 变 换 ， 得 





| Ce 2 十 
pf 1<Ge=DS ea !|>1-e 











有 + 多 尺 - 
于 是 
(ay on)， 
伸 得 1- 让 7 
即 P 本 9 << 9 31-a. 


上 式 表明 , 用 8 估计 o 时 ， 人 很 如 进行 了 100 次 重复 估计 ， 可 以 保证 至 少 有 100(1 ~ 


次 估计 的 相对 误差 不 低 于 p_ = -全 = 一 一， 不 高 于 p, = 一 工 -， 即 。 5S2<o 
Xp) Xuatn 

饼 p， S?， 而 作出 这 个 判断 犯 铺 误 的 要 车 是 。。 

从 例 3.I1 的 讨论 中 可 以 着 到 ， 在 对 估计 误差 进行 评价 与 检 制 分 析 的 过 程 中 , 我们 
得 到 了 一 个 由 统计 量 构造 的 随机 区 间 

牙 -on 0 部 到 + oa- 0 各 | 

用 训 佑 计 z 的 问题 转化 为 用 这 个 区 间 俘 获 ， 的 问题， 

从 例 3.12 的 讨论 中 可 以 看 到 , 在 对 估计 误差 进行 评价 与 控制 分 析 的 过 程 中 , 我们 
也 得 到 了 一 个 由 统计 量 构造 的 随机 区 条 


关 一 上 2 六 一 2 
| 一 0 Xapz 人 aa 一 了 | 
用 S 估计 o 的 问题 转化 为 用 这 个 区 间 俘 获 oz 的 问题 . 
上 述 关于 参数 估计 的 误差 评价 与 控制 分 析 在 方法 上 具有 一 般 性 , 通常 ， 人 们 根据 分 
析 结 果 的 表现 形式 而 将 参数 估计 的 误差 评价 与 榨 制 分 析 过 程 称 为 参数 的 区 间 估 计 ， 
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定 久 3.9 (区 间 估 计 } 设 变量 X 的 概率 分 布 为 F(z38)， 其 中 是 未 知 的 分 布 参 
数 ， 参 数 空间 为 @，X1, X2，…, 和 是 来 自 变 量 X 的 样本 ， 纺 = 外 (XXX 和 ) 和 全 
=(X 和 …，, 和 ) 是 两 个 统计 量 , 久 < 针对 于 给 定 的 一 个 很 小 的 正 数 es(0<u<1) 
及 任意 的 9E B, 车 

四 P 和 乏 b 生 轴 4321- e， 则 称 随机 区 间 [ 包 ,多 ，] 为 置信 水 平 为 1- w 的 ( 双 例 ) 重 
信 区 间 ， 线 ， 纯 分 别称 为 ( 双 便 ) 鼻 信 下 限 和 ( 双 便 ) 年 信 上 限 ; 

@Pj 负 过 bz1- a， 则 称 随 机 区 间 [ 久 ，+ oo ) 为 置信 水 平 为 1- e 的 下 倒置 信 区 
间 ， 纺 称 为 单 侧 置 信 下 限 ; 

图 Pig 世纪 j1- ， 则 称 随机 区 间 ( - co， 乡 ，] 为 置信 水 平 为 1 - 。 的 上 便 量 信 区 
闻 ，bo 称 为 单 侧 量 售 上限. 

区 间 估 计 的 实质 是 在 事先 对 估计 结果 的 可 售 程度 作出 承诺 的 情况 下 ,给 出 参数 估计 
值 的 同时 对 估计 的 抽样 误差 也 作出 了 相应 的 判断 ， 

在 区 间 估 计 中 , 置信 水 平 1- e 刻 盏 了 所 求 得 的 殖 宙 区 间 [ 生 ，，] 俘 获 参 数 6 的 可 
信 程度 ， 即 区 间 [ 秃 ， 纯 /有 100(1 - e)% 的 机 会 俘获 参数 p，vx 称 为 估计 的 风险 水 平 (或 
显著 性 水 平 )， 它 刻画 的 是 断定 区 间 [ 乡 ， 乡 )] 可 俘获 参数 8 的 误 判 炉 率 . 置信 区 间 的 平 


均 长 度 下 (| 入 -入 | ) 表 达 了 区 间 估 计 的 精确 庆 . 
自然 ， 我 们 希望 得 到 在 较 大 的 置信 水 平 下 具有 较 高 精确 度 的 区 间 估 计 ， 也 就 是 说 . 
要 求 估计 的 


@ 置信 水 平 1- s 尽 可 能 高 , 即 概率 Pb 莹 0 过 轴 上 要 尽 可 能 大 ; 


@@ 精确 度 尽 可 能 高 ， 即 区 间 的 平均 长 度 玉 ( | 有 5 一 入 |) 尽 可 能 小 . 

但 是 ， 理 论 分 析 表 明 这 是 一 个 两 难 问题 , 在 固定 样本 容量 的 条 件 下 ， 提 高 估计 的 精 
多 度 会 使 估计 的 置信 水 平 下 降 ， 而 提高 估计 的 置信 水 平 会 使 估计 的 精确 度 下 降 ， 

例如 , 估计 一 个 人 的 体重 在 某 一 区 间 内 ， 例 如 在 [60,70]( 单 位 ; kg) 内 ,我 们 要 求 该 
估计 景 可 靠 ， 即 有 很 大 的 把 握 此 人 的 体 时 在 这 个 范围 内 同时， 也 要 求 这 个 区 间 不 能 太 
长 ， 区 间 长 了 ， 可 靠 度 提高 了 , 但 精度 也 益 了 ,这 是 一 对 矛盾 ， 

在 实际 应 用 中 ， 人 们 一 般 是 在 保证 可 靠 的 条 件 于 尺 量 提高 精度 . 即 以 秆 信 水 平 为 主 
导 , 首先 要 保证 估计 结论 的 可 信 程 度 ， 然 后 再 设法 提高 精确 庚 . 换 名 话说， 所谓“ 大 概率 


保证 下 的 误差 控制 策略 ”的 意义 是 ， 预 设 估计 的 置信 水 平 1- ,寻求 适当 的 负 ， 儿 ,使 
估计 的 精确 度 尽 可 能 的 高 ， 即 下 ( | 罗 -~ 生 | ) 尽 可 能 的 小 . 在 实际 应 用 中 ， 若 一 定 的 量 
信 水 平 下 估计 的 精确 庶 不 满足 槛 求 ， 则 唯一 的 解决 办 法 就 是 增加 样本 容量 . 
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需要 指出 的 是 ， 置 售 区 间 不 是 孜 一 的 ,对 同一 个 参数， 我 们 可 以 构造 许多 置信 区 间 
《如 对 边际 概率 即 显 著 性 水 平 * 进行 不 同 的 分 配 则 可 得 不 同 的 置信 区 间 ), 通常 总 是 希望 
置信 区 间 足 可 能 短 , 可 以 证 明 , 在 枢 轴 量 的 概率 密度 为 单 峰 且 对 称 的 情形 , 如 正 态 分 布 、 
ti 分 布 ， 对 于 给 定 的 样本 容量 和 置 售 水 平 ， 对 称 于 原点 的 般 信 区 间 的 长 虚 为 最 短 . 即使 
在 概率 密度 不 对 称 的 情形 ， 如 X” 分 布 、F 分 布 ， 习 惯 上 仍 取 对 称 的 分 位 数 来 计算 未 知 
参数 的 置信 区 间 ， 

关于 区 间 估 计 的 方法 ， 应 用 中 要 区 分 正 态 变量 分 布 参数 的 小 样本 估计 与 非 正 态 变量 
分 布 参数 的 大 样本 估计 两 种 方法 下面 忽略 方法 的 推导 过 程 ， 给 出 方法 要 点 . 

(1) 正 态 变量 分 布 参数 的 小 样本 估计 方法 

正 态 变 基 分 布 参数 的 小 样本 估计 方法 见 表 3,2 

家 3 了 .2 正 坊 变量 分 布 参 数 的 小 样本 估计 方法 一 览 家 
枢 轴 和 量 及 其 分 布 误差 限 
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续 表 3.2 


-~ 1 
人 亚 -etaly 2 


加 1 
+ amavrmz) 


















一 NaieD) 
和 一 Nfea oa 












S21/ 是 
F= 珊 中 -PC lm- 了 
了 






四 1 
必 -FT 





加 1 
Pt 来 知 8 








表 3.2 中 ， X- 二 六 X， S2 = 


让 -SS 


1(al -1)S1+ (ay 一 UDS2 
失 ] 十 下 2 一 之 
【 例 3.13】 从 一 批 灯 泡 中 殖 机 抽取 5 只 作者 命 试 验 ， 测 得 寿命 (单位 : b 如 下 ; 
1050，1l100，1120，1250，1280. 设 灯 泡 寿 命 服 从 正太 分布. 试 在 0.,95 署 信 水 平 于 估计 
灯泡 的 平均 寿命 
分 析 设 碟 表示 灯泡 寿命 ， 依 题 意 和 ~ N(u，c5， 则 灯光 的 平均 寿命 为 珀 ( 袜 ) = 
#,， 因此 本 题 的 实质 是 估计 正 态 分 布 参数 kr， 但 方差 "" 未 知 . 于 是 ,参数 六 的 估计 量 先 
用 样本 均值 过 ， 枢 辆 量 选用 工 = 和 0 - 1)， 而 对 寿命 问题 ， 通 常 只 关心 寿命 下 
限 ， 故 相应 的 王 侧 区 同 估计 的 准则 为 Pizx 基 和 匀 | 1- we， 其 中 署 信 下 限 信 = 瑞 - 
1 -六 (性 总 单 侧 估计 时 ， 显 著 性 水 平 " 不 再 等 分 配置 在 双 侧 尾部 ， 而 是 全 部 
置 于 所 关注 的 一 侧 )， 
MATILAB 数据 处 理 
刀 Lear 
= [1050,.1100, 1120, 1250, 1280 ] ; 
媳 = langth(X); 
muRST = mean[x) 
amUDONER = aUEST - tinvf0.95, 革 ~- T) x SGrtfvarfx)yy) 
土 述 指 令 的 运行 结果 是 ， 
muRST = 
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1160 
TEUTLOWER = 
1.0649e 二 003 
计算 结果 表明 ,这 批 灯 泡 的 平均 寿命 约 为 11608， 以 0,95 的 概率 保证 这 批 灯泡 的 平 
均 寿 命 不 低 于 1065h， 
《2) 非 正 态 变量 分 布 参数 的 大 样本 估计 方法 
非 正春 变量 分 布 参数 的 估计 主要 采用 极 大 似 然 法 ,这 是 由 于 极 天 似 然 估 计量 优良 的 
大 样本 性 质 . 设 和 一 pz;9)， 身 是 分 布 参数 8 的 极 痰 似 然 估计 是 ， 则 在 相当 一 般 的 
条 件 下 , 下 面 两 个 结论 成 立 , 


@ 强 相合 性 ; Pi limhnr= 6 = 1 
四 斯 近 正 态 性 ，U = VAN (办 - 9) 2N(0 1)， 其 中 TU08) = 
是 Fisher 信息 量 ， 信息 量 F(9) 越 大 ,变量 分 布 中 包含 的 关于 未 知 





和 
一 Bi| 35np(z3g) 
参数 6 的 信息 越 多 . 


关于 这 两 个 结论 的 详细 描述 和 证 明 参 见 文 献 [6]. 
当 变量 的 分 布 非 正 态 时 ， 对 分 布 参数 9 进行 估计 的 通常 做 法 是 : 


@ 求 出 参数 g 的 极 大 似 然 估计 量 轩 ，:; 
@@ 根据 靳 近 正 态 性 , 求 出 估计 的 边际 误差 es= woV1/aT( 人 的 ; 


鲜 写 出 置信 区 间 [ 和 名 一 se 办， +e]， 
【 例 3.14]】 设 和 ~ B(1,p)， 试 估计 分 布 参数 户 ， 
解 ”因为 变量 X 的 概率 分 硕 律 为 
. 疡 ( 开 3 六 ) 一 加 (人 一 区 (0<pc<1z=0,1)， 





所 以 分 布 参数 p 的 似 然 函 数 为 
LO) = 下 巧 0- rs = ps 人 
于 是 
]nTL( 户 ) = | > 过 jn 十 | 好 一 > zjung 一 轧 )， 
似 然 方程 为 
中 D 上 _ = 
dp 放生 il 2 
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| 一 


机 
大 一 


工 ij ， 


上 并 


了 
下 面 求 Fisher 信息 量 T(p) = - 可 pe 和 边际 误差 s= w，，， 








Vy1/zaT( 区 )， 
因为 
新 np(zip)= 荔 [rnp+(L-z)inGl- 及 ]= 到 -1 和 

中 __ 工 __ TI- 工 

于 8 和 区 (1 一 力 )22 
所 以 

里 | 了 工 - |- 富 | 开 (z) 工 - 王 (z) 1 

世态 ) = 申 mptzs 一 | 区 二 训 十 (1- 放 7 让 (1 一 庆 ) 
于 是 边际 误差 


E 一 2Y La 一 at 2Y 放 (1 一 户 )/m， 
所 以 ， 由 为 可 得 参数 少 的 1- v 慎 信 区 间 为 
[多 -aoy8(1- 区 ms 有 + VOL- 罗 /z]， 

参数 佑 讨 是 一 种 重要 的 统计 推 斯 形式 ， 这 里 介绍 的 基本 上 是 由 波兰 统计 学 家 
Neyman 所 引进 的 方法 . 由 于 对 参数 估计 问 题 的 不 同 半 解 ， 还 有 不 同 于 Neyman 方法 的 
其 他 参数 估计 方 法 ， 如 Bayes 方法 ， 限 于 简 幅 这 里 没有 加 以 介绍 ， 有 兴趣 的 读者 清 参 阅 
文献 [1].[2].[6]. 

关于 区 间 估 计 的 MATLAB 数据 处 理 ， 除 例 3.13 依 基本 算法 进行 数据 处 理 的 圾 法 
之 外 , 对 于 常用 概率 分 布 ， 可 用 3.2.1 节 中 介绍 的 mle 函数 ， 只 要 逃 定 返回 第 二 个 输出 
参数 pei， 即 可 自动 完成 区 间 估 计 的 工作 . 

【 例 3.15】 引力 常数 的 测定 值 和 ~-N(n，e2)， 今 分 别 使 用 金 球 和 铀 球 进行 实验 测 
定 ， 

(1) 用 金 球 测定 ,观察 值 为 : 6.683，6.681，6.676，6.678，6.679，6.672; 

(2) 用 铀 妹 测 定 ， 观 察 值 为 , 6,561，6.661，6.667，6,667，6.664. 
试 针 对 (1)、(2) 两 种 情况 分 别 对 引力 常数 测定 值 的 均值 和 标准 差 进行 估计 (置信 水 平 为 
0.9)， 

分 析 ”此 问题 可 依 正 态 变量 分 布 参数 的 小 样本 估计 方法 ， 对 测定 值 均值 的 估计 选 估 


、 亚 _ 长 -下 史 一 旧 舍 
计量 X 和 枢 轴 量 人 37 广 tf 一 1)， 警 信 区 间 为 


” 训 ， 数理 统计 与 484 了 4 妊 数 所 处 理 
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了 
对 测定 人 标 准 关 的 估计 选 估计 量 S? 和 枢 精明 X2 = 人 一 拉 5 一 X2(n - 1)， 置 信 区 间 为 





闫 一 1 2 形 一 1 和 
本 -7” aa 人 2 -1 上 

然后 ， 依 上 述 算法 组 织 MATLAB 指令 进行 数据 处 理 , 这 一 工作 留 给 读者 练习 . 这 里 ,用 
mie 函数 进行 数据 处 理 . 

MATLAB 数据 处 理 ( 调 用 mjle 郑 数 ) 

Clear 

x=[6.683 6.6681 6.676 6.678 6,679 6.672]; 

7Y=[6.661 6.661 6.667 6,.667 6,664]; 

[phat，pei] = mle(x，"alpha"，0.1) 外人 金 球 测 定 的 估计 

[PHAMT，2RCI] = mlefy，'alpha'*，0.1) 扣 铂 球 测定 的 传 计 


上 述 指 令 的 运行 结果 是 : 
phat = 

三 .6782 0.0035 
Bei = 

台 .07500 0.0025 

三 .6813 0.0081 
EHAT = 

百 . 664 0,0027 
PCI = 


扣 ,66tl 0.0019 
恒 ,6669 D.0037 
计算 结果 表明 , 金 球 测定 的 上 的 估计 值 为 6,6782, 置信 区 间 为 [6.6750，6.6813]; 5 
的 估计 值 为 0.0035， 置 信 区 间 为 [0.0026, 0.0081]. 钠 球 测定 的 的 估计 值 为 6.6640， 
置信 区 间 为 [6.6611，6.6669]; e 的 估计 信 为 0.0027， 置 信 区 间 为 [0,0019， 0.0071]， 
除 mle 可 用 于 参数 的 极 大 似 然 估 计 和 区 间 估 计 之 外 ，MATLAB 还 给 出 了 完成 特定 
分 布 参数 的 极 大 似 然 估 计 和 区 间 估 计 的 ftt 类 函数 ， 内 容 见 本 书 附录 B. 


习题 3 
1. 扫 料 调查 某 地 区 50 户 居 民 的 月 消费 品 支 出 额 (单位 ， 元 ) 数 据 资料 如 下 ， 
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886 864 1027 918 866 926 893 519 946 078 
928 ”1030 928 1040 9035 ”900 900 863 926 821 
999 927 978 854 9354 999 800 981 895 924 
946 949 “816 100 890 886 938 916 967 6351 
530 8S2 1t000 900 1006 1120 864 818 921 850 


斌 根据 上 述 和 资料 编制 频率 分 布 者 和 绘制 冰 率 直方 因 ， 
2. 设 变 重 半 服从 区 闻 [0,6] 上 的 均 习 分 市 ， 即 分 布 密度 为 


1 
pe 
0， 其 他 ， 

(1) 求 参数 6 的 和 估 计量 上 ， 和 MLE 和 ; 

(2》 现 得 样本 值 为 1,3, 0.6，1.7，2.2，0.3，1.1， 斌 分 别 用 埠 法 与 极 大 似 然 法 来 变 
重 均 值 、 变 量 方 差 的 估计 值 ， 

3， 已 知 某 种 灯泡 的 奉命 (单位 : h) 服 从 正 态 分 布 ， 在 革 周 所 生产 的 该 种 灯泡 中 随机 
拍 取 10 只 , 测 得 其 寿命 为 1067，919，1196，785，1126，936，918，1156，920，948. 设 
总 体 参 数 部 为 求知， 试用 极 到 似 扑 法 估计 这 周 中 生产 的 灯泡 能 使 用 1300b 以 上 的 概率 . 

4. 设 变 量 上 一 N{psa)， 现 得 其 祥 本 值 为 14.7，15.1，14.8，15.0，15.2，14.6- 

{1) 试用 极 大 似 皂 法 与 顺 上 序 统计 量 法 估计 变量 的 均值 1 

(2) 试用 极 天 似 拟 法 与 顺序 统计 量 法 估计 变量 前 方差 o 

5, 随机 地 从 一 批 钉 子 中 抽取 16 玫 ， 测 得 其 长 度 ( 单 位 :em) 为 2.14，2.10，2 .13， 
2.15，2.13，2.12，2.13，2.10，2.15, 2.12，2.14，2.10，2,13，2,11，2 ,14，2.11, 设 什 
长 分 布 为 正 态 的 ， 试 求 总 体 均 值 六 的 鸡 负 置信 区 间 : 

{1) 若 巴 加 =0.01cmi 

{2) 若 吕 为 未 知 ， 

6. 某 咨 询 公 司 调查 了 中 国 20 个 省 奴 卫 星 电视 频道 晚 g 时 至 9 时 黄金 档 质 播 广 告 时 
间 { 单 位 : min)， 概 定 总 体 服从 正 态 今 布 . 统计 数据 如 下 ;6.0， 66. 5.8，7.0，6.3，6，2， 
7.2，5.7， 6.4，7.0，6.5，6.2，6.0，6,5，7.2，7,3，7.6，6.8，6.0，6.2. 求 中 国 省 扔 
卫星 电视 频 递 晚 8 时 至 蝇 时 黄 全 档 狂 播 广告 时 间 均 值 的 置信 度 为 95% 的 置信 区 间 ， 

7. 一 项 民意 测验 就 某 地 区 环境 状况 是 否 良 好 询问 了 700 名 成 年 人 的 看 法 ， 总 共有 
620 人 的 回答 是 “良好 ”. 

{1) 求 成 年 人 中 认为 该 地 区 环境 状况 良好 的 比率 的 志 人 居 计 ; 

{2) 在 95% 的 置信 水平 下 ， 迹 际 误差 汶 多 少 ? 

{3) 求 成 首 人 中 认为 该 地 区 攻 境 状况 良好 的 比率 置信 度 为 各 多 的 置信 区 问 ， 


0 过 工 扫 中 
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8. 某 高 校 有 3000 名 走读 生 ， 该 榜 拟 估计 这 此 学 生 每 天 往返 学 校 的 平均 时 间 ， 已 各 
瘟 体 的 标准 差 为 4.8min. 现 要 求 进行 置信 度 为 95%、 抽 祥 态 限 误 羡 为 lmin 的 区 问 估 计 ， 
试问 按照 重复 抽 祥 的 方式 ,应 抽取 多 大 的 料 本 ? 

9. 某 减 肥 用 圳 公司 对 其 所 做 的 报纸 广告 在 两 个 城市 的 效果 进行 了 比较 ， 分 别 从 西 
个 城市 中 随机 抽取 了 800 名 成 年 人 ， 其 中 看 过 访 广 告 前 比例 分 别 为 如 = 19 色 ， 加 = 
16% ， 斌 求 两 城市 中 看 过 该 广告 的 成 年 人 比例 之 善 的 置信 度 为 95%% 的 置信 区 河 . 

10. 随机 地 从 审批 导线 中 抽取 4 报 ， 蕊 批 学 线 中 抽取 5 和 要， 测 得 电阻 值 ( 单 位 ; 们 ) 如 
下 : 

甲 : 0.143，0.142，0.143，0.137; 

已 : 0.140，0.142，0.136，0.138，0.140. 

设 甲 、 蕊 两 批 导 线 电 阻 分 别 服 从 N(pi， 0.00252)，N(ua，0.00252)， 并 且 它 们 相互 
独立 ， 但 HI，Ha 未 知 ， 求 Pi- pa 的 置信 和 度 为 0.95 的 置信 区 间 ， 

11， 某 老 烟 厂 生 产 两 种 卷烟 ， 现 分 别 对 两 种 郑 烟 前 尼 二 于 含量 做 6 次 实验 ， 结 果 如 
下 ， 

甲 : 25，28，23，26，29，22; 

世 : 28，23，30，35，21，27 . 

着 香烟 的 郊 二 丁 含量 服从 正 态 分 布 ， 且 方差 四 等 ， 试 求 呵 科 音 烟 的 尼 吉 丁 平 均 含量 
善 mi 一 上 的 六 六 的 置信 区 间 . 

12, 某 自 动机 碌 加 工 同类 型 套 简 ， 假 设 套 简 的 直径 (单位 ; em) 服从 正 态 分 布 . 现在 
从 不 同班 次 的 产品 中 各 哲 取 5 个 赛 简 ， 测 定 它们 的 直径 数据 如 下 ， 

A 更 :2.066，2,063，2.068，2.060，2.068; 

B 班 : 2.058，2.057，2.063，2.059，2 ,060， 


> 
试 求 两 镁 所 加 工 的 赛 简直 径 的 方差 之 比 "全 的 置信 和 度 为 0.90 的 置信 区 间 ， 
他 


忆 





@ 交 了  。 


第 4 章 假设 检验 


假设 检验 是 统计 推 浙 的 另 一 个 主要 内 容 , 它 的 基本 任务 是 根据 样本 数据 对 变量 是 否 
服从 某 一 特定 分 布 或 参数 是 否 取 某 一 特定 的 值 等 回 题 作出 合理 的 判断 

本 章 讨论 假设 检验 的 基本 问题 ， 包 括 假设 检验 的 基本 概念 、 参 数 检验 与 分 布 拟 合 检 
验 的 常用 方法 ， 


4.1 假设 检验 概述 


在 统计 应 用 中 会 遇 到 如 下 类 型 的 问题 ， 

【 例 4.1 一 台 自动 车 床 在 正常 工作 的 情况 下 加 工 出 的 零件 直径 服从 正 态 分 布 ， 零 
件 规格 是 , 标准 直径 Secm， 人 允许 的 最 大 加 工 误 差 0.2cm. 某 日 开工 后 ,技术 人 员 进 行 例 
行 检查 ， 以 判断 该 车 床 工作 是 否 正常 ， 

这 是 一 个 生产 设备 运行 稳定 性 的 监督 问题 . 在 工业 生产 中 监督 设备 的 运行 稳定 性 ， 
通常 的 做 法 如 下 . 

全 进行 例 行 监督 检查 . 此 时 ,往往 假定 设备 的 工作 是 正常 的 ， 然 后 每 顺 一 段 时 间 随 
机 抽查 几 个 产品 的 控制 指标 (如 零件 直径 )， 如 果 没 有 发 现 异 常情 况 ， 就 认为 生产 是 正常 
的 ; 如 果 发 现 产品 的 质量 有 大 的 变动 , 超过 了 人 允许 的 限度 , 则 认为 生产 不 正常 而 需要 停 
机 检修 ,用 统计 语言 播 述 就 是 ， 假 设 变量 的 分 布 形态 已 知 ， 判 断 关于 分 布 参数 的 一 些 已 
知 信息 是 否 为 真 ， 即 进行 变量 分 布 参数 的 假设 检验 

加 在 生产 环境 发 生变 化 , 如 设备 大 修 或 工艺 改变 等 情况 下 ， 需 要 判断 设备 的 运行 是 
否 符 合 正常 状态 要 求 ， 这 不 仅 涉及 亿 中 所 述 的 参数 检验 问题 ， 首 先 要 做 的 是 判断 产品 的 
控制 指标 的 概率 分 布 是 否 与 要 求 的 一 样 . 用 统计 语言 描述 就 是 对 变量 的 分 布 形态 已 有 
先 验 的 知识 ,如 变量 曾经 或 者 应 该 服从 正 态 分 布 、 威 布尔 分 布 等 ， 判 断 目前 的 情况 是 否 
果真 如 此 . 

假设 检验 是 一 类 重要 的 、 应 用 广泛 的 统计 推断 技术 . 本 章 讨论 假设 检验 的 基本 思 
想 、 方 法 和 步 双 等 问题 . 


4,1.1 候 设 检验 的 思维 逻辑 


仍 以 例 4.1 中 的 问题 为 例 ， 讨 论 假 设 检验 的 基本 思想 和 方法 ,很 设 这 全 自动 车 床 的 
工作 是 正常 的 ,零件 直径 服从 正 态 分 布 ， 进 行 例 行 的 质量 答 查 , 假定 从 一 天 的 产品 中 抽 
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查 5 个 ,分别 测 量 直径 ,算得 和 =4.8cm, 据 此 来 推断 这 人 台 自 动车 床 当 天 的 生产 是 否 正 
常 ， 

这 是 变量 分 布 参数 的 假设 检验 问题 ， 

在 假设 检验 问题 的 分 析 与 推理 中 ,首先 要 明确 竺 检验 的 命题 Eu， 称 为 统计 假设 (也 
叫 原 候 设 或 零 假设 ， 称 与 之 对 立 的 假设 刀 , 为 备 寿 假设 )， 然 后 让 抽样 结果 来 检查 这 个 候 
设 是 否 可 信 、 是 香 能 够 成 立 , 从 而 作出 拒绝 还 是 不 拒绝 这 个 假设 的 决策 ， 

在 例 4.1 中 ,一 天 中 生产 的 所 有 敌 件 的 直径 是 一 个 随机 变量 X， 已 知 服从 正 态 
分 布 , 我 们 想 知 道 ， 这 一 天 生产 的 平均 零件 直径 下 (X) =7 是 否 符合 标准 要 求 , 即 w = 5 
是 否 成 立 . 如 果 w= 5， 说 明生 产 正常 ; 否则 ,说 明生 产 不 正常 ， 

于 是 ,我 们 设 原 假 设 Hu:w= Si 备 择 假设 万 ; :za 天 5， 

怎样 来 判定 H, 是 否 为 真 呢 ? 由 于 X~ N(a,o )， 即 x 是 零件 直径 的 期 望 值 ， 而 样 
本 均值 羡 是 zx 的 性 能 优良 的 估计 量 ， 瑟 是否 为 真 的 判断 可 以 通过 定量 分 析 二 者 的 信息 
差异 得 到 , 现在 六 =4.8， 而 要 求 上 =5， 其 间 存 在 差异 广 - mw = -0.2， 于 是 万 | 是 可 为 
真 取决 于 这 个 差异 的 性 质 . 

人 差异 可 能 是 由 随机 因素 引起 的 ， 称 为 抽样 误 蕾 或 随机 误差 ， 这 种 误差 反 瞻 个 然 
的 、 非 本 质 的 因素 引起 的 随机 波动 ， 

多 差异 不 是 由 随机 因 吕 引起 的 ， 它 反映 事物 的 本 质 差别 (反映 这 天 生产 的 平均 零件 
直径 同 标准 直径 不 同 )， 称 为 系统 误 羡 ， 

那么 ， 这 个 抽样 结果 究竟 是 偶然 性 在 起 作用 ,还 是 该 天 生产 不 正常 所 造成 的 ? 这 就 
需要 给 出 一 个 量 的 界限 . 即 给 出 一 个 小 的 正 数 8， 如 果 | 毒 -2a|<#， 则 认为 是 随机 性 的 
差异 ， 或 者 用 统计 学 上 的 术语 称 莽 异 不 打 显 著 ; 如 果 | 斑 -A| 袜 ， 则 认为 不 是 随机 性 的 
差异 ， 或 者 说 差异 显 蓝 ， 

于 是 ， 问 题 转化 为 如 何 确定 这 个 正 数 8， 容易 想到 ， 可 以 采用 区 间 估 计 中 的 大 概率 
置信 准则 

忆 {| 芝 -|<)}321- 
来 确定 这 个 量 的 界限 8 . 

但 是 , 这 里 产生 了 一 个 问题 : X 是 一 个 随机 变量 , 用 广 的 观测 值 说 明 命题 :za =5 
的 嘉 假 是 一 种 事实 验证 ， 若 在 一 次 抽样 中 | 有 总 -az| <3， 只 能 增加 大 们 对 命题 的 信 
心 ; 即使 是 100 次 的 验证 都 支持 命题 可 ,， 但 是 仍 不 能 令 人 信服 命题 如 是 真 的 ， 


如 果 注 意 到 当 ~ N(po2) 时 ， 有 责 --N| ze， 邢 } ， 即 当 为 真 时 ， 页 的 观测 值 


不 应 过 于 怕 离 上 =5， 即 事件 人 并 -| 六 少 } 应 当 是 一 个 小 概率 事件 ， 不 妨 记 为 
下 {| 芮 一 站 | 六 站 委 a， 
称 之 为 奏 验 准则 ， 其 中 " 是 一 个 很 小 的 正 数 ， 称 之 为 显著 性 水 平 ， 我 们 知道 ， 小 概率 事 
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件 在 一 次 试验 中 基本 上 不 会 发 生 . 如 果 在 一 次 抽样 中 ,区 的 样本 观测 值 字 和 ， 即 头 的 
观测 值 过 于 偏离 & = 5， 试 验 结果 与 前 提 候 设 不 相符 ， 则 使 人 不 能 不 怀疑 作为 这 个 小 概 
率 事件 前 提 的 命题 H 的 正确 性 . 这 里 的 集合 多 称 为 R 的 拒绝 城 . 如 果 一 个 概率 很 小 
的 事件 在 一 次 试验 中 居然 发 生 了 ， 则 人 们 认为 命题 互 不 真 的 理由 比 承认 命题 了 真 更 
为 充分 . 也 就 是 说 ,在 假设 检验 问题 中 , 采用 伺机 否定 瑞 。 的 思维 还 辑 出 执意 支持 Ho 的 
思维 逻辑 更 有 说 服 力 . 

我 们 称 在 伺机 否定 Fo 的 思维 过 程 中 使 用 的 推理 方法 为 概率 反 证 法 ， 它 不 同 于 一 般 
的 反 证 法 , 一 般 的 反 证 法 如 果 在 原 假设 下 导出 的 结论 自 相 庆 盾 或 与 本 实 予 后， 则 完全 缀 
对 地 推 痢 原 假设 ; 而 概率 反 证 法 的 结论 不 是 绝对 的 ， 只 是 认为 结论 正确 的 把 据 较 天 , 不 
排除 犯错 误 的 可 能 ， 

假设 检验 推理 方法 是 概率 反 证 法 ， 其 推理 逻辑 是 ; 如 果 原 假设 五, 是 对 的 ， 而 能 够 
验证 5 为 真 的 某 个 统计 量 落 入 某 个 约定 的 区 域 罗 是 个 小 概率 事件 ， 而 小 概率 事件 在 
一 次 试验 中 基本 上 不 会 发 生 , 如 果 该 统计 量 的 一 次 实测 值 落 入 区 域 罗 ， 也 就 是 说 ， 原 候 
设 成 立 下 的 小 概率 事件 在 一 次 试验 中 发 生 了 ， 那 么 就 以 较 充 分 的 理由 认为 原 假 设 不 可 信 
而 否定 它 ， 否 则 我 们 就 不 能 否定 原 假 设 ( 只 好 接受 它 )， 不 否定 原 假 设 并 不 是 肯定 原 假 设 
一 定 对 ， 而 只 是 说 差异 还 不 够 显著 ， 还 没有 达到 足以 否定 诛 银 设 的 程度 ， 


4.1.2 殷 设 检验 的 基本 步 又 


候 设 窒 验 的 基本 步 又 如 下 ， 

第 一 步 ， 提出 原 假设 如 及 备 择 假设 如 

床 假 设 基 我 们 对 问题 的 标准 统计 找 述 , 是 待 验证 的 命 古 : 而 备 择 假设 则 是 原 假设 的 
对 立 命题 ， 是 在 否定 诛 假 设 结论 时 的 统计 描述 ， 

如 例 4.1 中 ， 原 假设 五 0: 忆 二 P0 二 3 备 择 假 设 万 1 : 产 矢 1 ， 

我 们 称 这 类 假设 检验 为 双 便 假设 检验 ， 有 时 还 会 提出 下 述 形 式 的 假设 : 

页 0:R 委 Apoi 五 :天 >>Pa0 
或 

有 0:Am2Poi HAS Ho， 
我 们 称 这 类 恨 设 检验 为 单 例假 设 检 验 . 

此 外 要 注意 ， 对 于 一 个 实际 问题 ,部 假 设 通 常 部 可 以 有 两 种 提 法 ， 即 原 假 设 和 备 择 
假设 可 以 互 搞 . 应 该 如 何 提取 原 假 设 呢 ? 这 里 给 出 一 个 原则 性 的 建议 , 在 实际 问题 中 ， 
往往 把 系统 久 已 存在 或 样本 信息 明显 支持 的 状态 、 不 宜 轻 易 否 定 的 命题 作为 原 假 设 万 ,， 
或 者 说 把 我 们 希 刻 得 到 或 反映 系统 新 变化 的 结论 作为 备 择 恨 设 刀 | ， 

第 二 步 ， 选 取 一 个 适当 的 检验 统计 量 了, 并 写 出 相应 的 检验 准则 ， 
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如 例 4,.1 中 , 检验 统计 基 为 莹 ,检验 准则 是 P | 总 -0,.5| 闵 9) 过 e， 

在 这 一 环节 应 当 注 意 ,在 HI 成 立 的 条 件 下 ， 所 选 定 的 检验 统计 量 了 的 概率 分 布 
(或 近 估 分布 ) 应 当 是 已 知 的 . 如 例 4.1 中 , 若 再 成 立即 X~ NS5,0.22) 时 ， 有 况 一 
N(5，0,0008)， 

拒绝 域 的 临界 值 的 计算 依赖 于 检验 统计 量 的 概率 分 布 , 有 时 为 了 便于 计算 ， 特 别 是 
查 表 计 算 的 情况 下 ， 需 要 对 检验 统计 量 进行 分 布 形态 规范 化 、 标 准 化 或 浙 近 正 态 化 变 


换 . 如 例 4.1 中 ,通常 需要 将 检验 统计 量 标准 化 变换 为 = 区 -&, 在 忆 := 5 成立 
如 押 


/ve 

时 T 一 N{0,1). 

第 三 步 ， 给 定 显 著 性 水 平 vs， 并 求 出 F 的 拒绝 域 丈 . 

如 例 4.1 中 , 给 定 的 显著 性 水 平 "=D,05, 由 检验 准则 

忆 {| 王 -0.5| 浆 二， 
可 得 
王 { 委 0.5 一 人 二 也 (天 0.5+ 人 二 0.05， 
即 
环 =(-co, al]U[5，+oo)， 
其 中 =0,.5-8, 0=0.5+0. 通常 用 等 分 配置 显著 性 水 平 的 方法 确定 拒绝 域 的 临界 值 ， 
即 
书 { 全 和 逐 0.5- 信 < 委 0.025， 卫 { 玛 之 0.5+ 傅 } 久 0.025， 

进而 ， 根 据 总 ~ N{5，0.0008)， 由 MATLABE 计算 拒绝 域 的 临界 值 ， 

忌 = norminv(0.025,5,0.0008) 

= noramjinyv(0.975,5,0.00081) 

上 述 指令 的 运行 结果 是 ; 

a = 

4.9984 
区 = 
5.0016 

即 原 假 设 中, 的 拒绝 城 为 楞 =(- oo，4.9984JU[5.0016，+ co) 

第 四 步 ， 电 样本 算出 检验 统计 量 了 的 实测 值 ， 判 断 其 是 否 落 入 拒绝 域 . 

车 实测 值 落 入 拒绝 域 ， 则 认为 差异 显著 而 否定 原 候 设 Ho; 否则 ,就 认为 差异 不 显著 
市 不 能 否定 原 假设 ， 即 保留 (接受 ) 原 假设 刀 . 

如 例 4,1 中 , 下 =4.8E 色 ， 故 否定 原 很 设 Eu， 即 认为 这 天 生产 不 正常 ， 需 检修 . 

上 面 作出 的 否定 原 假设 的 判断 ,判断 正确 的 可 信 程度 为 0.95， 判 断 错 误 的 风险 李 率 
为 0 .05， 
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4,1.3 检验 的 p 值 


在 假设 检验 问题 中 , 得 出 结论 的 依据 是 检验 统计 量 T 的 观测 值 : 是 否 落 入 原 假设 
Ho 的 拒绝 域 机. 如 果 EE 丈 ,， 刚 拒绝 原 假 设 ,， 知 则 保留 原 假设 刀 ,这 种 非 此 即 筱 的 
结论 有 一 个 令 人 录 憾 立 处 ， 邵 结论 不 能 反映 由 当前 的 样本 信息 拒绝 (或 保留 ) 原 慨 设 的 理 
由 是 否 充分 . 具体 地 讲 ， 统 计量 了 的 观测 值 : 虽然 落 入 拒绝 域 丁 ， 但 其 距离 多 的 痢 界 
值 有 窗 远 ? 如 例 4.1 中 ， 玉 的 左 伍 临 界 值 为 4.998， 检 验 统计 量 过 的 值 为 4.8， 小 于 
4.998， 落 入 宛 ， 我 们 拒 原 假设 互 ,， 问题 是 : 依据 4.8< 4.998 得 出 结论 理由 是 否 人 
强 ? 对 此 最 好 有 一 个 数量 上 的 刻画 .“ 检 验 的 ， 值 ?能 够 满足 人 们 的 这 种 要 求 ， 

定义 4.1 ( 答 验 的 疡 值 ) 设 原 假设 为 扣 ，7 是 检验 统计 量 ， 其 观测 值 为 +， 克 ,的 
拒绝 域 为 权 , 则 称 如 下 定义 的 概率 ”为 原 假 设 克 , 的 检验 的 b 值 ， 

若 玖 =17T: 了 T 闻 ce 则 = PCTZzil 了 为 真 ). 

若 克 =17T:T<c 则 训 = POT< tr| HU 为 真 ) . 

若 匈 =1T:T<c 或 了 cj, 则 

人 当 : 值 较 小 ( 偏 左 取 值 ) 时 ， 户 =2P(T<i| 为 真 ); 

包 当 上 值 较 大 ( 偏 右 取 信 ) 时 ，5= 2P{T 六 引 G 为 真 )， 

在 统计 实践 中 ， 人 们 并 不 事先 指定 显著 性 水 平 v 的 值 ， 而 是 很 方便 地 利用 上 而 定义 的 
户 值 , 对 于 任意 大 于 加 值 的 显著 性 水 平 ， 人 们 可 以 拒绝 原由 设 ,但 不 能 在 任何 小 于 它 的 显 
著 性 水 平 下 拒绝 原 假设 ， 值 是 利用 样本 数据 能 够 作出 拒 笔 原 假 设 的 最 小 的 显著 性 水 平 ， 

[ 例 4.2]】 某 人 有 4 枚 不 同 的 钱币 ， 他 怀疑 这 4 枚 硬币 的 均匀 性 不 同 , 想 通 过 抛 丘 
硬币 观察 出 现 正 而 的 次 数 来 鉴别 弄 币 的 均匀 性 , 于 是 进行 了 挪 市 试验 ,4 枚 硬币 各 抽 迫 
100 次 , 并 记录 了 出 现 正 而 的 次 数 ， 结果 见 表 4.1， 








衷 4.1 
硬币 编号 1 2 和 4 
册 现 正面 的 次 数 50 55 60 65 


分 析 ” 设 在 100 次 抛 撞 中 每 枚 硬币 出 现 正面 的 次 数 为 X， 每 次 扫 搓 出现 正 而 的 概 
率 分 别 为 六 (=12,3,4)， 则 筷 一 5100，p )， 检验 的 原 假设 为 

”: 访 = 加 =0.5( 弄 币 是 均匀 的 ) (i= 1,2,3,4). 

在 Po 为 真 的 假定 下 ， 即 X 一 5(100，0.5)， 出 现 正面 的 平均 次 数 为 瑟 (X)= 100x 
0.5=350. 由 于 实测 出 现 正 而 的 次 数 均 不 小 于 50， 故 可 作 单 侧 检验 ， 即 备 择 假 设 为 

五 人 :让 > 加 =0.5 (=12,3,4). 
在 显著 性 水 平 e 下 , 检验 准则 是 
了 | 成 -50 关 8 和 we， 
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下 面 ， 我 们 利用 MATLAB 分 别 来 求 九 , 的 拒绝 域 和 检验 的 衫 值 ， 

MATLAH 数据 处 理 

明 求 拒 绝 域 ， 这 里 指定 显著 性 水 平 "=0.05. 由 于 检验 统计 基 服 从 相同 的 分 布 ， 故 
对 每 种 硬币 原 假设 的 拒绝 域 是 相同 的 . 

如 ] 如 昌 工 

说 .cower = binoinvf0.95,100,0.5) 旬 求 拒 续 域 的 临界 值 20 地 

上 述 托 令 的 运行 结果 是 ; 

人 LOwexz = 

5 间 

@@ 求 对 每 种 硬币 进行 检验 的 产值 ; 六 = 了 | 蕊 > 站 (=1,2,3,4)， 

2Lear 

di=1-binoedt(50, 100,0.5); 

p2=1- binocdf(55,100,0.5)1; 

B3 =1-binocdt(60,100.0.5); 

B4 = 1- binocdf(65,100,0.5); 

B = [pl,p2,p3,p4] 

上 述 指令 的 运行 结果 是 ， 

P = 

0.4602 0.1356 ”0.0176 ”0.0009 

根据 上 述 计算 可 知 , 在 0,05 显著 性 水 平 下 ,检验 认为 第 1 和 第 2 两 种 硬币 是 均匀 
的 , 面 第 3 和 第 4 两 种 硬币 不 是 均匀 的 ， 

如 果 改 变 显著 性 水 平 ， 则 需 重新 计算 拒绝 域 的 临界 值 . 但 是 利用 检验 的 ” 值 进 行 决 
策 则 不 必 重 新 计算 ， 应 用 起 来 更 为 灵活 方便 . 在 0.05 显著 性 水 平 下 , 检验 的 请 值 表明 
不 必 有 质疑 第 1 种 硬币 均匀 而 第 4 种 硬币 不 沟 匀 的 结论 ; 如 果 严 格 拘 匀 性 的 标准 ， 即 增 大 
显著 性 水 平 (更 容易 拒绝 原 假 设 )， 如 取 0.15， 则 统计 推断 不 能 认为 第 2 种 硬币 是 均匀 
的 ; 如 果 放 宽 均 匀 性 的 标准 ， 即 减 小 显著 性 水 平 (不 答 易 拒绝 原 假设 )， 如 取 0.01， 则 统 
计 推 断 认为 第 3 种 硬币 是 均匀 的 ， 


4.1.4 假设 检验 中 的 两 类 错误 与 势 范 数 


在 假设 欠 验 方法 的 应 用 中 ， 必 须 注意 检验 的 结果 是 否 与 实际 情况 相 吻 合 . 换 句 话 
说 ， 假 设 检验 是 可 能 犯错 误 的 , 在 作出 否定 原 假设 的 判断 时 ， 可 能 犯 如 下 两 类 错误 ， 

@ 第 一 类 错误 ，F 本 来 是 正确 的 ， 但 由 于 随机 性 使 检验 统计 基 的 观测 值 落 入 拒 缀 
拓 ( 小 概率 事件 并 非 不 可 能 发 生 )， 依 检验 规则 应 当 否 定 原 假设 这 时 的 结论 犯 了 “以 真 
为 假 "的 错误 ， 即 否定 了 正确 的 原 盆 设 , 
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显然 ， 4.1,1 中 讨论 的 答 验 准则 是 对 检验 中 犯 第 一 类 错误 的 概率 控制 ， 即 
P{ 否定 百 ,| 互 , 为 真 ) = P{ 第 一 类 错误 ) = c， 
ce 为 事先 给 定 的 显著 性 水 平 . 

名 第 二 类 错误 , 还 有 一 种 可 能 ,如果 原 假设 刀 , 是 错误 的 ,同样 由 于 随机 竹 使 检验 
统计 量 的 观测 值 没有 落 入 拒 绝 域 ， 依 检验 规则 不 能 否定 原 人 很 设 . 这 时 的 结论 犯 了 “以 很 
为 真 "的 错误 ， 即 接受 了 错误 的 原 假设 犯 第 二 类 错误 的 概率 记 为 

忆 (不 欣 定 理 o| 五 为 很 )= 已 (第 二 类 铺 误 ) = 8， 
或 
已 (接受 再 0| 瓦 ;为 真 ) = P( 第 二 类 错误 ) = 月 

我 们 希望 检验 的 结论 使 犯 两 类 错误 的 手 率 同时 都 很 小 ,最 好 是 全 为 0. 但 这 是 一 个 
两 难 问题 ， 当 样本 和 容量 给 定 后 ， 犯 这 两 类 错误 的 概率 就 不 能 同时 被 控制 . 为 了 说 明 这 种 
两 难 狂 ， 引 入 检验 的 势 画 数 的 概念 . 

定义 4.2 (检验 的 势 函 数 ) 设 日 为 8 的 参数 空间 ，BuUB, = 日 上 卫 @ 门 B;= 乡 . 检 
验 的 原 假 设 有 :9E Bo( 备 择 假 设 为 再 ; :8E 昌 ) 的 拒绝 域 为 四 ， 刚 检验 统计 量 T 的 观 
测 值 落 入 拒绝 域 环 的 概率 

中 (的 三 下 1 工 E 克 | 《8E 占 ) 
称 为 该 检验 的 势 画 数 ， 
势 因 数 实质 上 基 对 犯 第 …… 类 错误 的 概率 (= (8)) 和 犯 第 二 类 错误 的 概率 
B( = 有 89)) 的 统一 描述 ， 是 参数 9 的 函数 ， 其 关系 式 为 
xD 的， GE 加 
SR ，bee， 
c(b)=g(9) (9E 60)， 
AR(8)=I-8(9) 【GE 外 ). 
为 表述 简单 , 在 变量 X~N(A,o3，o 已 知 的 条 件 下 ， 凡 检验 
有 op 阅 poi 有 :SA 
为 例 对 这 一 结论 进行 说 明 , 同 例 4.1， 这 里 刀 ,的 检验 统计 量 仍 为 各 ,拒绝 域 多 = 
(- eeo,c], 于 是 
z(i)=PjZE Wi=PiZ<cl=P| < 和 闪 |= ol 和 | 
又 由 犯 第 一 (二 ) 类 错误 的 概率 sf) 的 定义 可 知 
当 2 莹 po 时 ，g(p)= 卫 信和 厂 |= 有 (否定 酝 ,| 五 ,为 真 )?= ge， 即 。 是 wx 的 函数 ; 
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当 m<po 时 ，g{A)= 忆 | 居 E 砚 | = 了 (否定 刀 0| 五 为 真 )=1- P( 接 受 嘱 | 瑟 | 为 
真 )=1-8, 即 有 也 是 wz 的 函数 
显然 ， 犯 两 类 错误 的 概率 可 统一 由 势 函 数 表示 ， 即 


ce(O=g(O= 全 二 才 | (ep 
po)=1-e0O=1- 中 后 (< 
由 这 两 个 式 子 可 以 着 出 (e 和 ， 是 确定 的 ，g| 和 -二 | 是 。 的 音调 溯 数 )， 和 从 使。 减 小 
应 使 | 7 中 的 < 变 小 ,此 时 导致 4- @| < 二 } 变 大， 即 8 变 大 ; 反之 ， 答 使 有 减 


小 , 应 使 1- o| 号 | 变 小 , 此 时 导致 “ 变 大 ， 即 。 变 大 ,这 就 说 明 在 假设 检验 的 过 程 


中 , 在 给 定 样本 容量 的 条 件 下 ， 人 们 不 可 能 使 犯 两 类 错误 的 概率 癌 时 都 很 小 , 即 与 8 
之 闻 一 个 变 小 必然 导致 另 一 个 变 大 ， 

因此 ,在 假设 检验 的 实际 应 用 时 ， 通 常人 们 只 能 控制 犯 第 一 类 错误 的 概率 ， 即 根据 
实际 情况 ， 通 过 控制 显著 性 水 平 e 的 大 小 来 减少 犯错 误 的 可 能 性 . 这 种 做 法 通常 称 为 显 
著 性 检验 ， 

在 显著 性 检验 过 程 中 , 当 我 们 宁可 "以 假 为 真 "而 不 属 " 以 真 为 假 "时 ， 则 应 把 w 取得 
很 小 , 如 =0,01, 反之 ， 则 应 把 。 取得 大 些 ,如 we =0.10. 折 中 的 取 法 是 wx=0.05. 例 
如 ， 某 药品 含有 考 性 ， 必 须 严格 控制 不 得 超过 规定 的 指标 , 如 果 设 原 假设 为 产品 不 合格 
《毒性 超过 某 一 标准 )， 则 应 把 取得 很 小 ,这样 才 能 保证 用 药 的 安全 ， 当 然 难 免 会 把 一 
些 合格 品 当成 废品 处 理 了 , 在 另 一 些 情 况 下 正好 相反 ,例如 检查 袋 装 食品 的 质量 ， 就 没 
有 必要 那样 严格 ， 如 果 原 翁 设 为 产品 不 合格 (质量 低 于 某 标准 )， 可 以 把 " 取得 稍 大 些 ， 
不 管 在 什么 情况 下 ,为 了 保证 8 不 致 太 大 ， 样 木 容量 都 不 应 本 小 . 


4.1.5 假设 检验 与 区 间 估 计 的 关系 


假设 检验 与 区 间 估 计 是 两 种 最 重要 的 统计 推断 形式 ,这 两 者 初 看 好 像 完 全 不 同 ， 其 
实 两 者 之 间 有 一 定 的 联系 , 利用 区 间 佑 计 可 建立 假设 检验 ， 反 之 亦 然 . 下 而 仍 用 例 4.1 
作 简要 说 明 ， 

设 总 体 尺 ~N(A oo 已 知 车 求 六 的 区 间 估计 ,应 选择 枢 轴 量 

U= 2 一 N(0,1)， 
按 置信 水 平 1 - x 确定 一 个 大 概率 事件 
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天 一 
了 | om 
由 此 得 到 。 的 置信 水 平 为 1 _ 。 的 区 闻 估 计 为 
均 元 过 
-oo -| 


这 个 区 朵 估计 恰好 是 原 假设 Ho:z= po 的 一 个 接受 区 域 ， 显 著 性 水 平 为 =， 
问题 如 果 是 检验 假设 


<wi| 二 圭一 ay 








天 十 4 


刀 0:P= poi 了 :4 天 po 
选取 的 统计 量 是 1 





_ 区- 
7 让 
对 给 定 的 显著 性 水 平 =， 得 到 小 概率 事件 


有 
?| 7 


六 x1-sjPp 是 否 成 立 ， 决定 是 否 花 绝 原 假 设 ， 





交替 吕 =。 








站 一 各 
/Van 


皂 弛 城 为 | 一 名 7 滁 克 -sj 网 楼 受 城 为 | 并- 名 -| < cp 再 把 pu 改 为 上， 那么 


结果 正 是 / 的 区 间 估 计 ， 置 信 水 平 为 1- e， 

需要 注意 的 是 ， 假 设 检 验 和 区 阐 估 计 的 结果 在 解释 上 是 有 差别 的 . 

例如 ， 我 们 在 检验 Ho:mz = mm=0 和 (显著 性 水 平 ec) 的 同时 对 产 作 区 间 估 计 ( 警 信 水 平 
为 上 - se)， 可 能 会 出 现 以 下 几 种 情况 ， 

名 检验 的 错 论 与 区 间 居 计 一 致 . 如 检验 接受 了 ,区 间 佑 计 为 ( -0.001，0.001). 
按 假设 检验 ， 应 接受 = 0; 按 区 间 估 计 ，A 可 能 取 到 的 最 大 值 和 最 小 值 都 很 接近 0， 这 
两 者 解释 一 致 . 

加 区 间 估 计 强 化 了 检验 的 结论 ， 如 检验 拒绝 了 ,， 区 闻 居 计 为 (1000，2000). 接 候 
设 检验 ， 应 邦 鹅 上 = 0; 按 区 辣 估 计 ， 区 间 中 不 包含 0， 即 0 不 看 做 A 的 一 个 可 能 值 ， 而 
且 ， 区 间 的 最 小 信也 有 1000， 与 0 相去 甚 远 ， 故 认为 wk 天 0 的 理由 很 充分 ,区 间 央 计 的 
结论 加 强 了 假设 检验 的 结论 ， 

@ 检验 的 缚 论 与 区 尚 估计 不 协调 . 如 检验 拒 笔 也， 区 间 估 计 为 (0.001，0.002)， 
按 假设 检验 ， 应 拒绝 关 =0; 按 区 同 估计， 区 同 中 不 包含 0， 从 这 个 方面 看 两 者 一 致 , 可 
是 细 看 这 区 间 ， 就 发 现 它 整个 在 0 的 附近 ,因此 实质 上 可 以 认为 上 就 是 0, 这 样 ,区 间 
估计 的 结论 (在 实质 上 ) 就 与 假设 检验 不 同 ,又 如 检验 接受 Hu， 区间 估计 为 ( - 1000， 
1500) . 接 假设 检验 ， 应 接受 =0; 接 区 间 估 计 ， 这 区 河 包 含 0, 即 0 是 x 的 一 个 可 能 








机 实测 人 |、 
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值 ， 在 这 一 点 上 与 假设 检验 的 结论 一 致 , 但 细 看 这 区 间 ， 最 大 可 以 到 1500， 最 小 可 以 到 
- 1000， 这 中 间 哪 一 个 值 都 有 可 能 . 因 北 ， 从 区 闻 估 计 角 产 看 ， 实 在 没有 多 大 把 握 认为 
# 的 取 值 都 在 0 附近 ,这 就 与 候 设 检验 的 结论 不 大 协调 了 . 

由 此 例 可 以 看 出 ,统计 上 的 结论 一 定 要 注意 其 实质 会 义 ， 如 只 停 国 在 表面 就 有 可 
能 被 引入 歧途 ， 


4.2 变 虽 分 布 参 数 的 检验 


4.2.1 正 态 变量 均值 与 方 闪 药 假设 检验 


单 正 寿 变量 沟 值 与 方差 的 假设 检验 的 思维 扣 氏 与 步 双 等 同 4.1 节 所 述 , 例 4,1 就 是 
单 正 态 变 其 的 均值 检验 问题 . 检验 的 关键 是 根据 问题 的 特点 ,正确 提出 办 验 候 设 ,选择 
恰当 的 检验 统计 量 ， 然 后 根据 检验 统计 基 的 概率 分 布 求 原 假设 拒绝 域 . 下 面 给 出 正 态 变 
基 均 值 和 方差 假设 检验 的 方法 要 点 ， 对 方法 的 推导 过 程 感 兴趣 的 读者 请 参见 文献 11]. 


设 变 基 X ~ N (zx，o?)， 其 样本 均值 为 尺 = 十)X ， 样 本 方 郑 为 3? = 





二 0 - 允 或 5 = 十 (X - ja)2， 则 正 态 变 基 均 值 和 方差 的 假设 检验 法 见 


表 4,2， 
甫 4.2 正 杰 变量 均值 和 方 头 的 假设 检验 法 


















和 (二 
ft 二 (一 1 
| 下 | 溢 和 -ap 天 一 了 











和 尖 丰 (9 

态势 关 (oa 
大生 人 (或 大 袜 相 -aa(z) 
， Xe 了 
9 2 下 
和 区 好] 或 2 检 (na 儒 


下 面 举例 说 明 上 述 检验 法 的 麻 用 . 
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[ 例 4.3] 在 正常 生产 情况 下 ， 印 花 焕 布 布 由 的 宽度 服从 正 态 分 布 NI(1.4， 
0.0048")、 某 日 选取 该 种 棉布 5 匹 ， 测 得 布 幅 宽 度 为 1.32，1.55，1.36，1.40,，1.44, 问 
该 日 印花 棉布 布 由 宽度 的 标准 盖 是 否 正常 ? ( 取 =0.05) 

分 析 ”这 是 正 态 分 布 的 方差 检验 问题 . 依 题 意 ,， 令 io:c =0.0048; Bi:a 关 0.0048. 
检验 统计 量 族 样本 方差 S$*， 双 侧 检验 ,检验 准则 为 

P(S Sr=0.0048)<a/2 或 PS 2 思 1e=0.0048)<v/2， 


需 对 9? 进行 变换 以 确定 其 概率 分 布 、 由 抽样 分 布 至 论 刀 = 人 二 了 3 一 z2(n 一 1) 


站 
在 再 成 立 的 条 件 下 ， 和 =45270.00482 一 *24)， 即 
Pi7y2<4870.004821Se/2 或 PY2248270.004821 二 ay/2， 
由 此 可 求 出 妃 , 拒绝 域 的 临界 值 . 
MATLAB 数据 处 理 
心 ] 必 丰 工 
z= [1.32,1.55,1.36,1.40.1.44]; 
XVRAR = varfz) 名 求 检 验 久 计量 的 值 
DETAL = ohi2inv(0.025,4)*0.00482714 当 求 拒 结 城 的 支 侧 临 界 值 
DETM2 = chi2inv(0.975,4)* 0.0048274 与 求 拒绝 域 前 右 侧 临界 值 
p=1- chi2cdft(4x XVAR/0.0048-2,4) 后 求 检验 的 b 值 
上 述 指令 的 运行 结果 是 ， 
XUVAR = 
0.0078 
DIETA1L = 
2.7903e- 006 
DE3A2 = 
石 .4185& 一 005 
p = 
站 
由 于 检验 统计 量 实 测 值 S? = 0.0078>DPTA2 =0,000064185， 落 入 拒 忽 域 ， 故 否定 
原 假设 ， 纯 认为 该 日 生产 棉布 布 民 宽 度 的 标准 差 不 正 常 ; 检验 的 值 近似 为 零 ,表明 作 
出 这 一 绪论 的 理由 是 充分 的 ， 
”MATLAB 统计 工具 箱 给 出 了 两 个 用 于 正 态 分 布 均值 检验 的 函数 ， 它 们 是 方差 已 知 
条 件 下 的 U 检验 法 函数 ztest， 和 方差 未 知 条 件 下 的 1 检验 法 函数 ttest. 下 面 举例 说 明 
这 两 个 函数 的 使 用 . 
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【 例 4,4]】 某 车 间 用 一 台 包 装机 包装 葡萄 糖 ， 包 得 的 袋 装 糖 重 是 一 个 随机 变量 ， 它 
服从 正 态 分 布 . 当 机 器 正常 时 ,其 均值 为 0.5kg， 标 准 差 为 0.015kg. 某 日 开工 后 检验 包 
装机 是 否 正常 ， 随 机 地 抽取 所 包装 的 糟 9 傻 ， 称 得 净重 (单位 : kg) 为 

,497， ,506，0.518， 昌 .524， 站 .498， 站 551， 收 .52， 站 ,515，0 .512， 
问 机 器 是 和 否 正 常 ? 

分 析 这 是 方差 已 知 条 件 下 正 态 分 布 均值 的 检验 问题 . 注意 到 客 数 样本 数据 大 于 
0.5， 故 作 单 侧 检 验 ， 检 验 假设 为 妞 :Au = po =0.5; B: >0,5. 注意 ,这 里 的 原 假设 
与 省 择 盆 设 是 不 相 容 的 ， 但 并 非 完全 对 立 . 这 也 是 在 实际 应 用 中 经 常 来 用 的 检验 命题 的 
设 定 技巧 ， 

MATLAB 数据 处 理 

调用 U 检验 法 函数 ztest 邓 教 ， 其 调用 格式 为 

[h，PB，ei，8] = ztestftx，m，51gma，atpha，+ail) 

其 中 , 输入 参数 x 为 样本 数据 向 量 ,m 为 竺 检验 均值 ，sigma 为 正 态 分 布 的 标准 益 ， alpha 
为 显著 性 水 平 (默认 值 0.05)，tail 为 检验 的 备 择 假设 的 标示 值 (tail=0 表示 双 侧 检验 ， 
tail= 1 表示 右 侧 检验 ">”，tail= ~ 1 表示 左 侧 检 验 “< 汶 ; 输出 参数 h 为 检验 决策 值 (h 
=0 表示 在 显著 性 水 平 alpha 下 不 能 拒 笔 原 假设 , h= 1 表示 在 显著 性 水 平 alpha 下 可 以 
拒绝 原 假设 )，p 为 拒绝 原 假设 的 最 小 显著 性 概率 ，ci 为 真实 均值 上 的 1- alpha 置 信 区 
闻 ，UJ 为 检验 统计 量 的 值 ， 

LeaL 

x= [0.497,0.506,0.518,.0.524,0.498,0.511,0.52.0.515,0.5121]; 

[b,p,ci,D] = ztest(x,0.5,0.015.0.05,1) 


上 述 指令 的 运行 结果 是 ; 
h = 

1 
P = 

,0124 
ci = 

,5030 In 
U = 。 

2.2444 


结果 表明 在 0.05 显著 性 水 平 下 ,可 拒 钩 原 假设 , 即 认为 包装 机 工作 不 正常 ， 每 袋 葡 
萄 糖 的 平均 质量 大 于 0,5kg, 由 ai 的 值 可 知 每 袋 葡萄 糖 的 平均 质量 不 低 于 0,503ke 的 可 
信 程 度 为 0.95， 

若 忽视 每 袋 葡萄 糖 质量 的 标准 差 已 知 的 条 件 ， 则 可 调用 函 教 ttest 完成 检验 工作 , 其 


本 
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调用 格式 同 ztest. 
[hb,p,ei,T] = ttesttxi0,5,0.05,1) 
上 述 指 令 的 运行 结果 是 ， 
Rh = 
1 
b = 
0 .0036 


它 守 
0.5054 IE 


七 Stat， 3 了 .5849 
df 
sd 0.0094 

结果 表明 在 0.05 显著 性 水 平 下 ，t 检 痊 亦 拒绝 原 假 设 ， 即 认为 包装 机 工作 不 正常， 
每 袋 葡 欧 糖 的 平均 质量 大 于 0.5kg; 且 由 p 什 可知, 这 个 结论 在 0.01 显著 性 水 平 下 也 是 
站 得 侍 脚 的 . 幅 的 信 可 知 每 袋 葡萄 糖 的 平均 质量 不 低 于 0.5054kg 的 可 信 程 度 为 
0.99, 结论 错误 的 风险 概率 是 0,01. 输出 参数 T 报告 检验 统计 量 的 观测 值 tstat = 
3 ,5849，: 分 布 的 自由 度 df = 8， 对 每 叙 葡 欧 糖 质量 标准 差 的 傣 计 sda=0.0094. 

这 里 对 例 4.4 稍 作 引 申 , 生产 商 为 确保 产品 投放 市 场 后 不 出 现 较 多 的 因 质 量 指标 不 
合格 而 引起 的 消费 者 投诉 ,在 生产 过 程 中 实际 的 装 我 质量 往往 大 于 向 市 场 承诺 的 标准 质 
量 , 在 此 人 鲍 中 ， 如 果 我 们 将 角 装 葡萄 糖 的 平均 质量 0,5kg、 标 准 善 0.015kg 理解 成 是 生 
产 商 对 产品 质量 指标 的 承诺 { 而 不 是 包装 机 的 实际 生产 控制 指标 )， 刚 由 每 盆 葡 萄 糖 质量 
的 样本 标准 盖 小 于 0.01kg( 更 小 于 0.015kg) 可 以 认为 ,包装 机 的 工作 状态 是 平稳 的 因 
此 ， 样 本 均 值 大 于 0,5Skg 应 是 生产 商 确保 质量 指标 承诺 的 体现 , 实际 上 , 若 以 样本 均值 
和 样本 标准 差 作为 包装 机 的 实际 控制 参数 (估计 )， 则 车 以 推算 出 该 生产 桨 投放 到 市 场 上 
的 僵 装 葡 欧 糖 每 袋 质 量 大 于 0,5kg 的 比率 ,如 下 所 示 . 

D=1I -noracdE(0.5, aeanfx), stdfx)) 

上 述 指 令 的 运行 结果 是 ， 

p = 

0 .8840 
即 88% 的 袋 装 葡萄 糖 的 质量 大 于 0.Skg， 


4,2.2 两 个 正 态 变量 均值 与 方差 的 比较 
两 个 正 态 变量 均 值 和 方差 的 出 较 ， 等 价 于 两 个 正 态 变量 均值 差 和 方差 比 的 假设 检 
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验 . 检验 的 思维 逻辑 与 步 邓 同 前 所 述 一 致 ， 问 题 的 关键 是 正确 提出 检验 假设 ， 选 择 恰当 
的 检验 统计 量 ， 然 后 根据 检验 统计 量 的 概率 分 布 求 出 原 假 设 的 拒绝 域 . 下 面 给 出 两 个 正 
态 变量 均值 差 和 方差 比 检验 的 方法 要 点 ， 对 方法 的 推导 过 程 感 兴趣 的 读者 参见 文献 [1]. 

设 变 量 X~- Ni，oci),， 变量 了 ~ N(p，o2)， 样 本 均值 分 别 为 蒜 和 丈 ， 样 本 方差 
分 别 为 S2 和 S2( 或 同 4.2.1 节 , 为 S2 和 S7Y2)， 记 


:_ (ma 一 DSx+(aa-l)Sy 5 5X s 
生 二 一 寺 一 了 十 衬 省 
了 1 站 2 mi 一 1) nan 一 1 














风 十 一 人 1 
则 两 个 正 态 变量 均值 差 和 方差 比 的 假设 检验 法 见 表 4.3. 
表 4,3 两 个 正 态 灾 量 均值 冀 和 方 奖 比 的 假设 检验 法 
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表 4.3 中 , 榨 验 统计 量 的 概率 分 布 为 : DT 一 N(0,1)， 1 一 tai+ama-2)，U "近似 服 
从 标准 正 态 分 布 ,+ “近似 腿 从 自 出 度 为 的 ; 分 布 ，F ”一 F(nlymnz)，F 一 FU(nat-1， ma 
一 1). 

下 面 举 几 个 例子 ， 以 乳 固 对 上 述 检 验 法 的 理解 ， 
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【 例 4.5] 设 申 、 乙 病 煤 矿 出 煤 的 含 亦 率 (单位 : 名) 都 服从 正 态 分 布 ， 即 买 一 
NI 7.5)，Y 一 Na 2.6)， 为 检验 两 煤矿 的 煤 含 藉 率 有 无 显著 性 差异 ， 从 两 矿 中 
省 取样 若 于 份 ， 分析 结果 如 下 ， 

甲 矿 , 24.3，20.8，23 .7，21 .3，17 .4; 

乙 矿 . 18.2， 放 ,9，20.2，16.7. 

试 在 显著 性 水 平 =0.05 下 , 检验 “ 含 藉 率 无 差异 "这 个 假设 ， 





分 析 “检验 假设 为 
io BA 天 ia， 
取 检 验 统 计 基 页 - 部 ， 由 于 of， 吗 沟 已 知 ， 统 计量 规范 化 为 中 = - 生 三 一 ~ N(0,1)， 
史 |， 呈 
短 1 。 裕 和 


检验 准则 是 已 {| 如 | 袜 3) 包 ec,， 即 拒绝 城 为 | 厅 | 世人 ， 

MATLAB 数据 处 理 
Clear - 
Xa [24.3，20.8，23 .7，2t.3，17 .41; 
yY= [18.2，16.9，20.2，1i6.7]; 
alpha=0.05; $% 设 定 显著 性 水 平 
U= (mean(x) ~- mean(y))/sgrt(7.5/5+2.674); 生计 站 检 验 丸 计量 的 观测 值 
DETA = norainv(t1 ~ alpha/2)，0，1); 第 求 拒绝 域 的 临界 值 

- Bs1-noracdt(T，0， 1); 5 求 拒 续 原 假设 的 晤 小 显 落 性 梳妆 
证 abs(D) >>DETR 革 决 茉 ， 拒 绝 原 概 设 则 返回 昱 =1， 否则 返回 h=0 
=1; 
起 司 
了 =0; 
end 
alpBha，h， 亡 ， 可 ，DETR 

， 土 述 指令 的 运行 结果 是 ;，， 
alLpha = 

0.0500 
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让 二 
2.3870 

BETIRA = 
1.9600 

结果 表明 在 0,.05 的 显著 性 水 平 下 ， 认 为 甲 矿 售 忒 率 与 乙 矿 售 黄 率 有 显著 莽 异 ， 

若 注意 到 含 其 率 数 据 的 均值 甲 矿 明显 大 于 乙 矿 ,进行 单 侧 检 验 更 为 恰当 ,检验 假设 
可 表示 为 

瑟 0 PK 再 1:AE >P2， 
此 时 ， 检 验 准则 是 PT 关中 委 a， 即 拒绝 域 为 Vz8， 相 应 的 数据 处 理 过 程 只 需 在 上 述 
MATLAB 指令 集中 ,将 语句 

DEZA = norainvffl - alpha/2) ,0,1) 
修改 为 
DER norainv(1 -alpha),0,1) 

即 可 , 此 时 DETA =1.5449， 其 他 计算 结果 不 变 ， 相 应 的 检验 结论 是 : 在 0. 05 的 显著 性 
水 平 下 ， 认 为 甲 矿 含 灰 率 显著 地 大 于 乙 矿 含 灰 率 , 由 5 值 可 知 , 这 个 结论 在 0.01 的 显著 
性 水 平 下 也 是 成 立 的 

MATLAB 给 出 了 方 佐 未 知 但 等 方差 条 件 下 用 于 两 个 正 态 变 基 均值 羞 的 检验 函数 
ttest2， 使 用 方法 与 ttest 类 似 ， 

[ 例 4.6】 在 平 护 上 进行 一 项 试验 以 确定 改变 操作 方法 的 建议 是 否 会 增加 铀 的 产 率 
(单位 : % )， 试 验 是 在 同一 只 平 炉 上 进行 的 . 每 炬 一 炉 钢 时 除 操作 方法 外 ， 其 他 条 件 都 
尽 可 能 做 到 相同 . 先 用 标准 方法 炼 一 炉 ， 然 后 用 建议 的 新 方法 炼 一 仿 ， 凡 后 交 赫 进行 ， 
各 炼 10 炉 ， 其 产 率 分 别 如 下 . 

@@ 标准 方法 : 78,1，72.4，76.2，74.3，77.4，718.4，76.0，75.5，76.7，77.3; 

四 新 方法 ;79.1, 81.0,77.3，79.1，80.0，79.1，79.1，77.3，80.2，82.1. 

设 这 两 个 样本 相互 独立 ， 并 且 筒 的 产 率 服从 正 态 分 布 . 问 建 议 的 新 操作 方法 能 否 提 
高 产 率 ? { 取 =0,.05) 

分 析 这 是 两 个 正 态 变量 均值 的 比较 和 问题， 应 作 均 值 差 的 检验 由 于 变 基 的 方 莹 未 
知 且 样本 容 基 较 小 ， 故 应 在 等 方差 的 假定 下 进行 ; 检验 . 因此 ,此 问题 严 廊 的 分 析 诺 当 
分 如 下 两 步 . 

@@ 作 方差 齐 性 检验 ， 即 检验 呈 ,:oi= ooz 夫 ee， 

@@ 方 营 齐 性 检验 通过 的 情况 下 作 均 值 车 + 检验 ( 若 等 方差 的 息 定 不 成 立 ， 刚 只 能 作 
近似 上 检验 )， 邯 检验 杞 :Ai = As 有 Ai 区 pe 

MATLAB 数据 处 理 
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疡 
人 方差 齐 性 检验 ， 取 检验 统计 量 F= 中 -PG,9)， 的 拒绝 域 为 FF os(9,9) 或 
FF 之 Fu ors(9， 曙 ， 
CLear 
z=[78.1,72.4,76.2.74.3,77.4,78,4,.76.0,75.5,76.7,77.3]; 
Y= [79.1,81.0,77.3,79.1,80.0,79.1,79.1,77.3,80.2,82.1]; 
了 = var(xj/var(y); 
虽 =1-Eedf( 了 了 99) 
上 述 指令 的 运行 结果 是 : 
p = 
0.2795 
结果 表明 ,可 以 拒绝 Bo 的 最 小 显著 性 概率 p= 0,2795 > e = 10.05， 故 不 能 拒 缀 
HB0， 即 认为 标准 方法 与 新 方法 铀 的 产 率 方 盖 是 ~ 一致 的 ， 这 也 说 明 试验 中 除 操作 方法 外 ， 
其 他 条 件 都 得 到 了 较 好 的 控制 . 
色 均 信 差 : 检验 ， 调 用 函数 ttest2 . 
[hh, gp, eci,TT] = ttest2(x,yY,0.05，- 1) 
上 述 指令 的 运行 结果 是 : 
hh = 
1 
p = 
2.1759e- 004 
Ci = 
-Inof -1.9083 
TI = 
tstat:， 一 全 .2957 
dE: 18 
sd 1 ,66597 : 
结果 表明 , 可 以 拒绝 器,,， 即 新 操作 方法 能 显著 提高 钢 的 产 率 . 由 值 可 知 结论 错误 
的 可 能 性 极 低 (小 于 1% )， 击 立 的 上 根 信 可 知 kz - pi>1,.9， 即 有 99% 以 上 的 把 握 新 方 
法 能 提高 饮 的 产 率 (经 计算 ) 约 2.5 个 百分点 ， 实 际 生产 中 钢 的 产 率 在 寺 1,67 范围 内 波 
动 . 


4.2.3 非 正 态 变量 分 布 参数 的 检验 
关于 非 正 态 变量 分 布 参数 的 检验 ， 除 少数 特殊 分 布 可 在 小 样本 条 件 下 进行 检验 之 


。， 扫 。 数理 统计 与 有 4 季 4 吾 数据 处 理 








外 ， 通 常 都 是 在 大 样本 条 件 下 进行 近似 检验 ， 
4.2.3.1 几 种 特殊 分 布 参数 的 小 样本 检验 

(1) 0=-1 分 布 参数 加 的 检验 

0- 1 分 布 参数 如 的 检验 ， 是 最 重要 的 、 应 用 广泛 的 非 正太 分 布 参数 的 检验 问题， 人 
们 习惯 上 称 为 比率 户 的 检验 

下 面 ,结合 实例 来 阐述 比率 ? 的 检验 方法 . 

【 例 4.7]】 某 机 床 加 工 的 备件 长 期 以 来 不 合格 率 不 超过 0,01， 某 天 开工 后 ， 为 检验 
机 床 工作 是 否 稳定 ， 随 机 抽检 了 15 件 产品 , 发 现 其 中 有 1 件 不 合格 , 试问 该 机 床 是 否 需 
要 检修 . 

设 和 为 抽检 起 前 一 件 产 品 的 不 合格 数 , 则 和 服从 0-1 工 分 布下 1,)， 其 中 因为 产 
品 的 不 合格 率 ,0< <1, 当 机 床 工作 稳定 时 p 魏 0,01， 当 机 床 工 作 不 稳定 对 户 >0.01， 
因此 ， 判 断 该 机 床 是 否 需 要 检修 的 问题 可 由 如 下 民 设 检验 问题 作出 推断 ， 

万 0 六 魏 0.01; 刀 记 >0.01. 

这 是 一 个 离散 分 布 的 单 边 检验 问题 . 设 XI，X2，…，X iid: 一 XX， 由 于 下 (X)= 
六 所 以 选取 页 = 太 2 大 为 检验 统计 量 ， 在 ”= 确定 时 可 以 用 了 = 了 Xi， 

当 了 为 真 时 , 勃 不 应 过 大 ， 即 T 不 会 过 大 ; 反之 ， 当 也 不 真 时 , 束 较 大 ， 即 工 
会 取 较 大 的 值 . 因此 ，H。 的 拒绝 域 的 形式 为 多 = 1T 闻 ce, 这里。 是 临 泪 值 .问题 的 关 
键 是 如 何 求 得 临界 值 <. 

当 包 = 加 时 ， 统 计量 了 一 5(m, 加 )， 故 可 用 二 项 分 布 来 决定 临界 值 <. 由 于 代 取 非 
负 整数 ， 故 c 亦 应 取 非 负 整 煞 ， 

给 定 显著 性 水 平 v, 检验 准则 为 P(T 交 ce| 户 = 如) 所 ,此 时 拒绝 域 丈 的 大 小 受到 
限制 ( 即 存在 c,， 当 c = cv 时 , 拒绝 域 叉 厅 能 再 扩大 ), 于 是 ,临界 值 可 取 满 足 


PT 滨 c| 一 站 - 加) 所 


的 最 小 整数 ， 
同 理 可 以 得 出 比率 训 检验 的 其 他 两 种 情形 的 检验 方法 . 下 面 对 比率 ”的 检验 问题 
作 一 般 叙 述 ， 
设 辣 ，，…， 忆 ii.d， 50 则 关于 参数 p 的 检验 问题 与 方法 见 袁 4.4， 
根据 上 述 讨 论 ， 下 面 给 出 例 4.7 的 具体 检验 过 程 . 在 例 4.7 中 , 当 8 为 真 时 , 检验 


统计 量 T = 》 Xi - 5(15,0.01)， 拒绝 域 为 W = 1T>zc|， 临界 值 是 满足 
1 到 二 ， 1 - 
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的 最 小 整数 ,检验 的 MATLAB 数据 处 理 如 下 ， 
表 4.4 0-~1 分 布 参数 "的 候 设 检验 法 (显著 性 水 平 为 w， 检 验 统计 量 了 = 工区] 





临界 值 * 的 确定 方法 










裤 职 清 尼 立 人 ja- 苔 0 包 实 的 最 小 整数 








< 了 玫 -pr < 的 最 大 型 数 


全 qi “jl- 加 ) 宝 na72 的 最 大 装 数 
c3 取消 中 2， | "jaa- ps ef2 的 最 小 整数 





]GBI 

T=1; 朱 检 验 统 计量 的 观测 慎 

alpha= 0.05; 鲍 显 著 性 水 平 

P=1- biaocdf(0: 15，15，0 ,01); 。 为 确 完 拒 绝 城 上 界 信 计 和 Te 的 概 款 

for byk=i: 16 后 求 拒绝 域 临 界 利 

证 P(bYk) >>alpha&p(byk+1)< = albpha 

如 = byYK; 

end 

end 

证 T> =e 芋 检验 决策 ,hh=1(0) 拒 绝 ( 接 侣 ) 原 假设 

h=1 

丰 二 中 

h=0 

end 

上 述 指 令 的 运行 结果 是 ; 

h = 

1 

结果 表明 ,拒绝 原 假设 ， 即 统计 推断 认为 应 检修 机 床 . 

[ 例 4.8】 某 厂 产品 的 优质 品 率 一 直 保持 在 40% , 近期 技 监 部 门 来 厂 抽查 ， 共 抽查 
了 了 2 件 产 品 ， 其 中 优质 品 为 5 件 ,在 4,05 显著 性 水 平 下 能 否认 为 其 优质 品 率 仍 保持 在 
40 允 ? 

分 析 设 X 表示 检查 一 个 产品 时 优质 品 的 个 数 ， 则 和 一 5(1, ) .检验 问题 为 


。 100 。 数理 统计 与 M437Z.4 呈 数据 处 理 








再 :六 =0.4; 刀 : 坊 天 0.4. 


这 是 一 个 双边 检验 问题 . 当 责 为 真 时 ,检验 统 计量 工 = 六 世 -5(12，0.4)， 拒绝 域 


为 T 委 cl 或 了 基 oa(eiR ee) 其中， 临界 值 cy 是 使 P1T 委 c| 委 0.025 成 立 的 最 大 束 
数 ，c; 是 使 P1T 闻 cj 委 0.025 成 立 的 最 小 整数 ， 

MATLAB 数据 处 理 

局 二 3 

T=5; 争 栓 验 统计 量 的 观测 值 

alpha=0.025; 年 显著 性 水 平 

P= binocdf(0:12,12,0,4); 名 为 确定 拒绝 城 临界 值 计 草 个 的 累积 概率 

Eor byk =1:7 多 求 拒绝 城 虱 界 值 

证 B(byk)<aipha&p(byk+1) > = alpha 


cl = byKk 一 十 ; 
end 
让 (1 -B(byk+ 6))>alphaE(1-B(bykt+7))< = alpba 
c2=byK+ 7; 
end 
end 
让 Tc =ellz> =c2 8 检验 决策 ，h= if(0) 碟 结 ( 接 受 ) 原 假设 
h=1 
和 各 必 
bh=0 
end 
ee= [cl,e2]# 和 输出 拒绝 域 临 界 值 
土 述 指令 的 运行 缚 果 是 ; 
Rh = 
0 
ce = 
1 9 


上 述 计 算 表 明 ,， 当 =0. 全 时 ,由 于 PITA1THE<0.025 而 PT 扫 2| >0.025， 故 拒 
绝 域 左 侧 临界 值 cr = 1 又 PT38 >0.025 而 P1T 关 外 <0.025， 故 拒绝 域 右 俩 临界 
值 =: =9. 于 是 ， 忆 0 的 拒绝 域 为 T<1 成 了 29. 检验 统计 量 的 观测 值 T=5 未 落 入 拒绝 
城 ， 因 而 在 0,05 显著 性 水 平 下 认为 该 厂 优 质 品 率 无 明显 变化 ， 

{2) 泊 松 分 布 参数 1 的 检验 
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泊 松 分 布 在 描述 称 有 事件 发 生 次 数 方面 发 挥 着 重要 的 作用 .下 面 结合 实例 来 阐述 泊 
松 分 布 参数 1 的 检验 方法 ， 

【 例 4.9】 通常 认为 放射 性 物质 在 单位 时 间 内 放射 的 e 粒子 数 X 服从 泊 松 分 布 
PC) ， 其中》 是 单位 时 间 内 平均 放射 的 e 救 子 数 ， 要 测试 某 放射 性 污染 地 区 的 单位 时 间 
内 平均 放射 的 w 粒子 数 是 否 起 过 临界 值 ) 

这 是 泊 松 分 布 参数 ) 的 检验 问题 ,所 要 检验 的 假设 是 

五 0 委 10 五 :>>A0. 

设 在 站 个 单位 时 间 内 测 得 的 e 粒子 数 和 大 ，, 大 让 id 一 下 , 由 子 瑟 (和 ) = 

因此 选择 六 = > X 为 检验 统计 量 ， 在 ， 确定 时 可 以 用 T = 》X, ,很 显然 ，T 值 直 


大 越 对 万 不 利 ， 因 此 6 的 拒绝 域 应 具有 人 六 ce 的 形式 ,由 泊 松 分 布 的 可 加 性 ， 开 ~ 
PF{ mA)， 所 以 检验 准则 为 P(T 衬 cl4=)0) 委 w( 显 著 性 水 平 )， 即 拒绝 域 的 临界 值 应 是 
满足 


加 天 
PT 工 2cl 二 >， - e ma 
的 最 小 正 整数 . 在 实际 计算 中 , 常常 利用 泊 松 分 布 与 刀 分 布 的 如 下 关系 : 
对 给 定 的 及 了 一 PaA)， 有 


《7 
了 | 开关 中 = > 2 e 内 一 《291 2c). 
下 = 上 四 


其 中 ，X(2r; 2c) 表 示 自 由 朗 为 2c 的 六 分 布 在 2m4 处 的 值 . 显然 ，P1T 关 ec 是 1 的 
单调 增 函 数 ， . 

对 这 个 结论 的 证 明 感 兴趣 的 读者 可 参考 泊 松 分 布 与 若 玛 分 布 关 系 的 讨论 ，%” 分 布 
是 一 种 特殊 的 合 玛 分 布 ， 初 步 的 讨论 参见 文献 [1 . 

于 是 ,拒绝 域 的 临界 值 c 应 是 满足 y (2zaoy 2c) 妇 ce 即 2mosy1-。(2c) 的 最 小 正 
整数 . 

司 理 可 得 其 余 两 种 检验 门 题 的 检验 方法 ， 结 果 列 于 表 4 ,5， 

表 4.$ 。” 泊 松 分 布 参数 1 的 假设 检验 法 [显著 性 水 平 为 &， 检 验 统计 量 T= 于 区 ) 


< 











原 息 设 | 备 择 仍 设 拒绝 城 临界 前 = 的 确定 方法 
Ms | >aa e 取 满 足 2mMosx3_ (2c) 的 最 小 整数 
六 1 | < T 拟 e “ 取 满 足 2m0n< xz(2c+ 罗 的 最 大 整数 
-一 一 一 
答 2 
有 = 天 j0 T 罕 co 或 Teacigeca 后 取 清 属 2n0 Tea + 2 的 最 要 数 
z 到 满足 2 妇科 -at2cz) 的 最 小 整数 
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继续 讨论 例 4.9. 通常 ， 单位 时 间 ( 时 间 长 度 为 9min) 内 平均 放射 的 x 粒子 数 不 超 
过 0.6. 假定 进行 了 15 次 观测 ， 观 测 到 的 x 粒子 数 见 表 4.6. 


家 4.6 
下 子 数 si 0 1 2 3 4 合计 
频数 4 字 2 1 f 开 


于 是 ,检验 原 假设 为 百 ,: 委 0.6,， 取 显著 性 水 平 为 0,1, 由 上 述 讨 论 , 检验 的 MATLAB 
教 据 处 理 如 下 ， 

CIeer 

A= [0,1,2,3,4]; 年 粒 子 数 数据 

了 = [4,7,2,1,1]; 名 颜 数 数据 

T= 臣 x 和 ”与 检验 巡 计 量 的 观测 值 

alpbha =0.4; 多 显著 性 水 平 

站 = gunf); 币 样 本 容量 

lanbda0 =0.6; 所 待 检验 杂 数 慎 

cC=0.5xechi2inv(1- alpbbha 2x*ntlanbda0) 外 求 拒绝 域 临 剧 估 

认 T> = 有 检验 决策 , hb=1(0) 拒 绝 {( 接 受 ? 原 很 设 

h=1 

公 ] 性 所 

h=0 

end 

上 述 指令 的 运行 结果 是 ; 

、 

18 


12 .9947 


1 
结果 表明 ,T<e, hbh=1， 拒 绝 原 假设 ， 即 放射 性 污染 地 区 的 单位 时 间 内 平均 放射 的 
a 粒子 数 超过 临界 值 0.6. 
《3) 指数 分 布 参数 8 的 袜 验 。 
指数 分 布 是 一 类 重要 的 分 布 ， 应 用 广泛 , 下 面 结合 实例 来 曾 述 指数 分 布 参数 8 的 窗 
验方 法 ， 
【 例 4.10] 设 一 批 电 于 元 件 ， 其 寿命 X( 单 位 ; b) 服 从 参数 为 6 的 指数 分 布 ， 假定 
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从 这 批 元 件 中 随机 抽取 * 个 样品 ， 进 行 加 速 寿命 试验 ， 并 测 得 全 部 = 个 样品 的 失效 时 
间 . 假定 按照 国家 标准 ， 这 种 电子 元 件 的 平均 寿命 不 得 低 于 b h. 又 假定 在 加 速 寿命 斌 
验 中 样品 的 平均 寿命 为 正常 状态 下 的 证 . 如 何 根据 上 述 信息 判定 这 批 电子 元 件 是 否 从 玫 
标准 ? 

根据 上 述 信息 判定 这 批 电子 元 件 是 否 合乎 标准 的 问题 ， 等 价 于 指数 分 布 参数 9 的 检 
验 问题 

HI03b0 了 :9<0， 

设 = 个 样品 在 正常 情况 下 的 失效 时 间 Xu, Xz，… Xiid-X, 由 于 E(X)= 0, 因 

此 选择 吕 = 十 > X 为 检验 统计 基 . 很 显然， 值 越 小 越 对 不 利 ， 因 此 HH 的 拒绝 红 


应 具有 区 委 < 的 形式 ， 
浆 由 指数 分 布 是 特殊 的 伽 玛 分 布 , 即 Exp(176) = Ga(1，1/7b)，?* 个 独立 同 分 布 指 


数 变 最 之 和 为 仙 玛 变量 可 知 , xX = > X; ~ Ga(n，1/9). 为 计算 简便 ， 通 常 利用 人 到 


分 布 的 性 质 引 进 一 个 刀 统计 量 作为 检验 统计 量 ， 在 = 6 时 ， 妇 2 一 2z 天 /16 一 X2(27)、 
于 是 ,在 显著 性 水 平 " 下 ， 由 检验 准则 己 ( 驶 Se19 = 90) 祥 可 知 ，Fo 的 拒绝 城 取 
对 委 c 与 取 X2<X (2z) 是 等 价 的 ， 
同 理 可 得 其 余 两 种 检验 问题 的 检验 方法 ， 结 果 列 子 表 4.7.， 
训 4.7 ”指数 分 布 参数 6 的 息 设 检验 法 (显著 性 水 平 6， 检验 统计 量 z = 20 芝 70) 


阅 拉 -22) 





TSX(20) 或 人 阅 人 af2n) 


继续 讨论 例 4.10. 假定 和 = 3000h， 若 加 速 寿命 试验 中 20 件 受 检 样 品 的 平均 失效 
时 间 为 237h， 招 在 0,1 显著 性 水 平 下 这 批 电子 元 件 能 否 通过 检验 ? 于 是 ， 检验 原 假设 为 
Bu:03zb0=3000. 由 上 述 讨论 , 检验 的 MATLAB 数据 处 理 如 下 . 

忆 ] 和 aa 

thata0 = 3000; 多 待 检 验 地 数值 

alpha=0.1; 币 显 著 性 水 平 

D=20; 多 样本 容重 

EoLife = 237; 与 加 速 寿 命 试 难 中 样品 平均 失效 时 间 
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zx2stat =2xanax(1i0:EgoLitfe)/theta0 外 检验 统计 量 的 观测 慎 
避 = chi2invfalpha，2 ah) 先 求 拒绝 域 临 界 值 
让 xz2stat<c =e 种 检验 决 菜 ，h=1(0) 拒 绝 ( 接 党 ) 原 急 设 
h=1 
全 | 吉 必 
h = 
and 
上 述 指 令 的 运行 结果 是 ; 
X2Stat = 
31,.6000 


29.0505 
h = . 
0 
绪 果 表 明 , 炉 > 字 (22)， 产 =0， 不 能 拒绝 原 候 设 ， 即 这 批 电子 元 件 应 当 通过 检验 ， 
4.2.3.2 非 正 态 变 莉 均值 的 大 样本 检验 方法 
前 面 介 绍 了 两 点 分 布 参数 总 、 泊 松 分 布 参数 1 和 指数 分 布 参数 和 的 小 样本 检验 方 
法 ， 细 心 的 读者 可 能 发 现 ,这 三 种 非 正 态 分 布 有 一 个 共同 的 特点 ， 就 是 它们 的 数学 期 户 
等 于 分 布 参数 . 因此 ， 所 谓 分 布 参数 的 检验 实质 上 是 变量 均值 的 检验 . 
对 于 非 正春 变量 均值 的 检验 ， 更 一 般 前 做 法 是 进行 大 样本 近似 检验 . 其 一 般 描述 
是 : 设 民 ， Ka ii 和 一 记 巨 (X)=An，po 是 2 揭 先 验 取 值 ， 检 验 问题 有 如 下 
三 类， 
思 再 op 委 poi 再:>A， 
加 再 :wx2poi 有 :Sa 
图 Hz=A0i :天 po 
检验 统计 量 取 丈 , 击 概率 极限 定理 可 知 ， 当 样本 容量 * 很 大 时 , 下 近似 服从 
NA Sm)， 其 中 8 = 下 (2 - 允 ) 是 样本 方差 ,实际 检验 中 , 在 上 = po 的 假定 下 
使 用 统计 量 
惟一 An 
3 
于 着 ， 三 类 检验 问题 的 拒绝 域 分 别 是 
也 殉 =|UBzu 





一 (0,1)， 
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四 克 =| 5 委 z 

图 丈 =| 咱 厅 | 人 wp 

如 果 Var(X)= 所 已 知 则 检验 时 可 用 z 替代 S， 检 验 统计 量 的 分 布 与 拒绝 域 的 形 
式 不 变 ， 

[ 例 4.11】 从 某 一 试验 物 中 随机 地 抽取 50 个 样品 ， 测 得 样品 的 发 热量 (单位 : ]) 数 
据 记 隶 如下: 

11786，l2032，11666，12118，11955，12282，12277，11728，12244，11645， 

12112，12116，11680，12158，11932，11773，1t2117，12014，12153，11689， 

11882，11767，12059，11716，11968，11704，11654，t1668，11755，11969， 

12060，11969，12028，11856，12110，11712，11976，12288，11841，11967， 

12173，11831，12100，12205，12066，12201，12243，12251，12072，12027. 
试 同 ， 以 0,05 的 显著 性 水 平 是 否 可 以 认为 发 热量 的 期 户 值 是 12000? 


分 析 依 题 意 ， 检 验 假 设 是 Ho: pz = po Hi :wz 天 po, 检验 统计 量 U= 革 二 ee 


SA 
N(0,1)， 拒 绝 域 的 形式 为 | IJ | 六 zl -op 

MATLAB 数据 处 理 
妇 】 香 包 并 
load frl 多 预 先 丘 写 数 据 文 件 frl.mat， 并 存放 到 当前 工作 路 径 下 
alpha=0.05; 竺 显著 性 水 平 
mu0 = 12000; 争 待 检验 过 数值 
0= (aean(fr1) - ao0)/(std(Efzl)/sqrt(lengkth(frl))) 多 和 粕 验 统计 量 的 观测 全 
e= norminv(1i -alpha/2,0,1) 与 永 拒 绝 域 临界 值 
二 abs(> = 轨 失 验 决策 ，h=1(0) 碟 绝 [ 接 爱 ) 原 假设 
h=it 
是 二 名 所 
h=n0 
end 
上 述 指 令 的 运行 结果 是 ， 
TU = 

-0.9985 
c = 

1.9600 
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结果 并 明 不 能 拒绝 原 假 设 ， 试 验 物 的 发 热量 符合 期 望 值 ， 

实际 上 ， 由 于 大 样本 均值 检验 为 T 检验 ， 故 可 直接 调用 MATLAB 的 D 检验 函数 
ztest， 需要 注意 的 是 要 用 样本 标准 差 std(x) 代 赤 正 态 分 布 的 标准 盖 sigma 作为 输入 参数 ， 

[jh, P, Mei,T] = ztest(Erl, ad0, std(trl),aIpha) 

二 述 指 令 的 运行 结果 是 ， 

D = 


p = 
站 ,3180 
Mei = 
11917 12027 
二 = 
一 0.9985 
显然 ,计算 出 的 统计 量 T 的 观测 值 与 检验 结论 同 前 而 一致. 
在 大 样本 均值 检验 问题 中 ， 一 个 重要 的 应 用 是 两 个 比率 的 比较 ， 其 一 般 描述 如 下 ， 
设 忆 ，X2 ii dB ap Y YY iid 一 5(l 加)， 两 样本 独立 ， 
需 对 如 与 进行 比较 ， 这 等 价 于 下 列 三 种 假设 检验 问题 之 一 ， 
名 机 0 和 之: 和 六 加 
加 巧 0 及 关外 51 有 福 放 2， 
鲜 Go: 加 = 加 TD 轴 天 记 ， 
由 克 率 极限 定理 可 知 ， 当 样本 容量 很 大 时 , 在 = 如 的 假定 下 , 检验 统计 量 





中 四 
具 2 一 二 N(0,1)， 
工 + 工人 (~ 多 
1 中 1 普 记 二 加 
由 了 上 只 了 上 站 1 说 加 2 
其 中 z 本 人 瑟 ， 户 2 一 区 全 六， 疡 三 尹 土 扩 


于 是 , 三 类 检验 问题 的 拒绝 域 分 别 是 

外 克 =| 之 本 -| 

意 克 =|10 委 wh 

图 多 =!{| D 台 | 补 -2 

【 例 4.12]】 女性 色 言 的 比例 比 男性 低 ， 从 随机 抽 吏 的 467 名 男性 中 发 现 有 8 名 色 
育 ,， 面 433 名 女性 中 发 现 1 人 色盲, 在 0.01 显著 性 水 平 下 能 否认 为 女性 色 此 的 比例 比 
男性 低 ? 
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分 析 设 男性 色 官 的 出 例 为 如， 女性 色 言 的 比例 为 加， 那么 要 检验 葛 假 设 为 责 ,: 
疡 闻 加 3 下 区 户 ?， 
MATLAB 教 据 处 理 
已] 电 SE 
alphas0.01; 生 显 著 性 水 平 
ESTpl = 8/467; 
ESTB2 = 17433; 
ESTP = (8+T1)A(467+ 433); 
0 = (ESYpl - ESTP2)/sgqrtf(1/467 + 11433) * BESTP x (1 - BSTIP)) 刁 检验 统计 量 的 观 
测 什 
c= norainvfalpha，0，1) 争 求 拒绝 域 临 界 值 
证 US =e 5 棕 苍 决 策 ,，h=1(07 拒 绝 ( 接 受 ) 原 急 设 
h=1 
本 有 全 
h=0 
end 
上 述 指令 揭 运 行 结果 是 ; 
U 三 
2.2328 
co = 
-2.3263 
和 = 
0 
结果 表明 , 在 0.01 时 著 性 水 平 下 不 能 拒绝 原 假 设 ， 邵 订 以 认为 女性 色 言 的 比例 比 
男性 低 ， 


4.3 变 置 分 布 形态 的 检验 


通过 前 几 节 的 讨论 ,我们 已 经 了 解 了 假设 检验 的 基本 思想 ， 并 讨论 了 当 分 布 形式 已 
知 时 关于 其 中 未 知 参 数 的 假设 检验 问题 ， 然而， 可 能 遇 到 这 样 的 情形 ， 如 例 4,6 中 ， 认 
趾 标准 方法 下 的 铀 的 产 率 服从 正 态 分 布 通常 是 合理 的 ,但 是 新 操作 方法 下 钢 的 产 率 是 特 
仍 服从 正 态 分 布 是 需要 山 酌 的 ， 因 为 影响 钢 的 产 率 的 条 件 毕 竟 发 生 了 改变 . 因此 在 例 
4.6 问题 的 分 析 中 ， 更 为 严谨 的 思考 应 当 包 括 识别 新 操作 方法 下 钢 的 产 率 是 否 为 某 个 正 
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态 变量 , 此 类 问题 通常 称 为 变量 分 布 形态 的 检验 ， 属 于 非 参数 检验 问题 . 本 节 讨 论 非 参 
数 检 验 的 几 个 基本 方法 及 其 应 用 ， 


4.3,1 玫 .Pearson-Fisher 检验 


及 ,Pearson-Fisher 检验 是 非 参数 检验 的 基本 方法 ,主要 有 两 个 方面 的 应 用 : 一 是 关 
于 变量 分 布 形态 拟 合 优 度 检 验 ， 通常 称 为 oz 拟 合 优 度 答 验 ; 另 一 是 关于 二 维 变量 独立 
性 的 检验 ,通常 称 为 列 联 表 的 独立 性 检验 ， 
4.3.1.1 入 氢 徊 优 度 检 验 

他 拟 合 优 度 检 验 是 关于 变量 X 分 布 形态 的 某 种 先 验 知识 或 猜测 是 否 为 真 的 统计 推 
断 方 法 . 记 变 量 和 的 分 布 天 数 为 Frfz)，Fo(zig,0 ,8 ) 是 关于 Fe(z) 的 先 验 知 设 
或 猎 测 ， 则 六 执 合 优 度 检 验 的 假设 是 

再 0 FREErig 2 下 区 工 ) 尖 下 CD 

在 应 用 中 , 车 X 为 离散 凶 变 量 ， 则 囊 , 可 转述 为 概率 函 教 的 瑚 达 ; 若 X 为 连续 型 变量 ， 
则 五 , 可 转述 为 概率 密 诬 阴 数 的 表达 ， 

在 对 上 述 假 设 B。 进行 *“ 检验 时 , 总 是 假定 F(z;8i,8 和 ) 的 理论 形式 是 已 
知 的 ， 但 其 参数 未 知 . 因此 ,应 用 中 7 :拟人 优 度 检 验 法 包括 两 个 环节 ， 先 用 极 大 似 然 估 
计 法 估计 分 布 参数 人 ce = ( 仙 ， 思 ,…, 包 )， 然 后 再 对 假设 了 :Fi(z) = Fi(zi0 0， 
9) 进行 检验 . 

仅 对 刀 拟 合 优 度 检 验 法 的 步骤 说 明 如 下 . 

全 分 割 蕊 的 取 值 范围 ,将 变量 的 取信 范围 分 成 上 个 互 不 重 登 的 小 区 间 ， 记 作 

AI 一 [aoai)，A2=[alias)，…， A=[ar ah)， 

这 些 区 间 的 长 度 可 以 不 等 . 

加 统计 样本 数据 (zl，z，…， zi) 落 和 第 主 个 小 区 间 4 的 实测 频数 上 六 注意 ， 


2 太 = 好 ， 


人 @@ 计算 变量 X 落 入 第 ; 个 小 区 间 信 ,的 理论 频数 n 太 ， 其 中 , 变量 和 落 入 第 ; 个 小 
区 间 A, 的 概率 

记 = Fi(ali 和 沁 ， 机 四)- Fo(e ii 和 ， ， 人 ) 《一 工 ,2 天) 

注意 到 分 布 参数 是 由 极 大 偶然 法 估计 出 的 ， 因 此 这 个 概率 本 质 上 也 是 一 个 估计 值 ， 


图 计算 检验 统计 量 *” = 祥和 辽 -4 所 - 仆 -2 的 值 这 个 统计 量 最 初 是 由 K.Pearson 在 
荆 六 
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1900 年 引进 的 , 长 ,Pearson 证 明了 

1 > 伟 一 功 ) = 2( 有 1， 
其 中 户 为 依据 分 布 函数 Fu(zi 9 0 0 ) 计 算 的 变量 X 落 入 第 ; 个 小 区 间 A, 的 理 
论 概 率 . 这 一 结论 后 由 Fisher 改进 ， 他 证 明了 若 分 布衣 数 Fufzi 骨 ，8，…, 日) 中 的 参 
数 gj，9)，…，8 由 其 极 大 似 热 估计 代替 得 Fu(z; 纪 ， 久 ，…, 儿 )， 则 当 样本 容量 n 一 oo 
时 


( 扬 一 玫 ) 
好 = 之 ， 1)， 


icl 如 由 ; 
证 骨 参 见 文 献 [7], 因此 ， 实 际 应 用 中 一 般 要 求 * 之 50， 以 及 每 一 个 z 户 都 不 小 于 5. 否 
则 应 适当 合并 区 间 ， 使 。 少 , 满 足 这 个 要 求 ， 

加 作出 检验 决策 , 显然 , 在 X 统计 量 中 各 个 实测 频数 矿 与 理论 频数 a 力 , 之 间 偏 关 
平方 的 大 小 标志 着 经 验 分 布 与 理论 分 布 之 问 差 异 的 大 小 . 如 果 X2 统计 量 的 值 过 于 储 大 ， 
则 表明 样本 信息 不 支持 原 假设 H 成 立 的 假定 ,因此 对 于 给 定 的 显著 性 水 平 <， 检验 淮 
则 为 P{z2>X (kr-1T)Ie， 即 当 检验 统计 量 的 实 济 值 vz > y_,( 二 -> -1 时 ， 
则 在 显著 性 水 平 v 下 拒绝 原 假设 呈 ,， 否 则 保留 蕊 ， 

下 面 举例 说 明 y2 拟 合 优 度 检验 法 的 应 用 ， 

【 例 4.13】 表 4.8 中 数据 是 200 个 零件 的 直径 X( 单 位 : cm)， 











囊 4.8 
直径 2.25 2.35 2.45 2, 纺 2 .6 2.75 2.85 2 . 妈 
频数 3 4 5 11 12 17 好 站 
直径 3. 邮 3.15 3.25 “3,35 3.45 3.55 3 .的 3,35 
频数 24 22 19 13 13 ? 3 2 
能 知 验 证 直径 X 服从 正 态 分 布 ? 


分 析 “ 依 题 意 检验 的 假设 是 H: 等 件 直 榴 X 服从 正太 分布 N(u, o2). 其 中 , 参数 
Ai 吧 均 未 知 , 因此 ， 首 先 要 求 出 参数 io2 的 极 大 似 然 估计 ， 


As = 呈 外 (分 组 数据 的 样本 均值 ) 
和 as = 二 辣 7 -is (分 组 数据 的 祥 本 方 郑 ) 
然后 在 按照 前 述 人 一 名 步 进行 z2 拟 合 优 度 检验 ， 
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MATLAB 数据 处 理 
中 输入 原始 数据 ， 并 求 分 布 参数 的 极 大 似 然 估计 . 
总 中 BE 
x= [2.25, 2,35, 2.45,2.55, 2.65,2.75, 2.85, 2,95, 3.05, 3.15, 3.25,，3.35，3.45， 
3.55,3.65,3.95]; 
= [3,4,5,1t,12,17,19,26,24,22,19,13,13.7.3,21; 
嫉 = Suatf); 
MU = SuatE. + ) ./ 
SITGMR = SGzt(Sut(E.x (xi2)) na-NO.2) 
上 述 指令 的 运行 结果 是 ; 
-0 = 
3.0090 
STGNHR = 
0.3210 
根据 计算 结果 ,检验 的 原 假设 修正 为 百 ,: 刁 ~ N(3.009,0.32102)， 
” 岛 样本 数据 分 组 . 
题目 给 出 的 数据 已 是 分 组 数据 ， 共 分 为 16 组 ， 且 每 组 的 闫 数 已 经 统计 出 . 但 是 ,前 
3 组 数据 和 后 3 组 数据 的 频数 偏 小 ， 故 分 别 将 前 、 后 3 组 获 据 进行 合并 ， 这 样 可 得 夫 组 
数据 , 这 12 组 数据 所 属 的 数据 组 的 区 间 边 界 值 如 下 . 
=[]; 
foz KK= 1 工 : 站 
地 = (xz(2+F)+X3S+YK))A2 村 小 区 间 这 界 志 取 相 人 都 两 个 数据 的 中 可 
吕 = [8，aa]; 
end . 
aa=【 -jnf，ar inf]” 告 由 于 正太 变量 在 整个 数 轴 上 取 值 ,最 小 边界 点 为 一 oo ,最 大 
边界 记 为 + oo 
上 述 指令 的 运行 结果 是 : 
a = 
一 Inf 
2.5000 
2.6000 
2.7000 
2.8000 
2.9000 
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3.0000 

3,10090 

3.2000 

3,3000 

3.4000 

3.50010 

Ir 

鲜 统计 经 验 频数 ， 
经 验 频 数 题 目 已 经 给 出 ， 只 需 分 别 合并 前 、 后 3 组 的 频数 . 
于 = 【ETfL) +E 人 2) 十 三 人 3) E( :3) 1) EL5) 十 芋 f16)]7 
上 述 指令 的 运行 结果 是 ; 
芋 亚 

12 

11 

12 

17 

19 

26 

24 

22 

19 

13 

13 

12 
地 计算 理论 频 者 . 
BEST = [; 
for 达 = 1:12 
Bp = mormcdtfati+T) NU,SIGNMR) - normodffafti) NU SIGNR) ， 
PESY = [PEST PP]: 
end 
THEF = 下 # PEST” 
上 述 指令 的 运行 结果 着 ， 
THEF = 

11.2776 
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8.9789 

13.3124 

17.9255 

21,9214 

24.3472 

24.5591 

22.4988 

18 ,7193 

14.1449 . 

9.3072 

12.6077 
@@ 计算 检验 统计 量 的 观测 值 . 
CHI2EST = sunf(E - YEEF) .2./THEF) 
上 述 指令 的 运行 结果 是 ， 
CHI2EST = 

2.4469 

念 检验 决策 ， 
= 12; 
工 =2j 
alLpha = 0.05i 
此 =k-r-1; 
REFCR = chi2inv(1I ~- alpha，dd); 生 拒 绝 域 临界 什 
允 =1 工 - chi2cdftfCHI2EST，df); $ 检验 的 了 慎 
让 CHt2BST > RERCR 


hz=i'; 
全 9 避 
h=0i; 
Snd 
tlPBha，h， 疡 
gtat = [《， 上 +，CHI2EST，REYCR] 
上 述 指令 交 运行 结果 是 ， 
alIpha = 
站 .0500 


hh = 
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站 .9823 
Stat = 
12.0000 2.0000 2.4469 16.9190 
计算 结果 表明 ， 在 0,05 显著 性 水 平 下 , h= 0 保留 原 假设 瑟 o， 即 X%” 拟 合 优 度 检验 
认为 零件 直径 和 一 N(3.009,0,1030). 最 小 显著 性 概率 p=0,.9823 表明 ， 当 前 样本 数据 
下 不 能 拒绝 原 恨 设 豆 , 的 置信 程度 高 达 98 久 . 
【[ 例 4.14] 在 20 天内， 从 维尼 纶 正常 生产 时 前 生产 报表 中 看 到 的 维尼 给 纤 度 ( 纤 
维 的 粗细 程度 的 一 种 度量 ) 的 情况 ， 有 如 下 100 个 数据 : - 


1,.36，1.49，1,43，1.41，1.37，1.40，1.3 和 2，1.42，1 ,47，1.39， 
1 .41，1.36，1.40，1.34，1.42，1.42，1 ,45，1 ,35，1 .42，1 .39， 
1.44， 1 ,42，1.39， 主 ,42，1.42，1.30，1.34，1.42，1.37，1.36， 
夺 ,37，1.34，1.37，1.37，1 .44，1.45，1 .32，1 48，1 ,40，1.45， 
1 ,39，1.46， 计 .39，1.53，1 .36，1.48，1.40，1.39，1 38，1 .40， 
工 .36，1 .4S，1.50，1.43，1 ,38，1.43，1.41，1.48，1 .39，1.45， 
1.37,， 1.37， 1.39，1.435，1,.31，1.41，1 ,44，1 .44，1 42， 于 ,47， 
1.35，1.36，1 .39，1,.40，1.38，1.35，1.42，1.43，1.42，1 .42， 
1 42，1.40，1.41，1 .37，1.46，1.36，1.37，1.27，1.37，1.38， 
让 42， 主 .34， 工 ,43，1 .42， 二 ,41，1.41，1 .44，1.48，1 ,5353，1 37 ， 


正常 情况 下 ,维尼 给 纤 记 腿 从 正 态 分 布 . 试 根 据 这 100 个 样本 数据 在 0.10 显著 性 水 平 
下 验证 生产 是 正常 的 ， 

分 析 这 是 一 个 正 态 拟 合 检验 问题 ， 检验 的 原 假设 是 本 : 维尼 给 纤 度 X 服从 正 态 
分 布 N(anyc,， 其 中 , 参数 xs, 咏 均 未 知 ， 

MATLAB 数据 处 理 

血 输入 原始 数据 ,进行 未 知 参 数 的 极 大 亿 然 估计 . 

局 | 丰 和 工 

load wmlzd; 多 预先 编写 数据 文件 wnlxd.mat， 并 存放 到 当前 工作 路 三 下 

a= 1engthfwplxdyi 

[NU，SIGMR] = norwfitfwnlxd) 

上 述 指令 的 和 运行 结果 是 ， 

JU = 

1.4042 
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SIGMR = 
0.0478 

于 是 , 检验 假设 修正 为 五,: 和 ~ NI1.4042,0.017 生 ). 

四 样本 数据 分 组 . 

[ 寺 ，aed] = histfwmlzxd); 

了 _MED = [7，aned ] 


上 述 指令 的 运行 结果 是 ， 
F_MED = 
夺 了 ,2840 
4 1.3120 
7 1.3400 
22 1.3680 
23 1.3960 
20 1.4240 
13 1.4520 
7 1.4800 
1 1.5080 
2 1.5360 


利用 hist 指令 自动 分 为 10 分 组 ， 并 统计 各 组 频数 , 由 计算 结果 可 知 , 前 3 组 数据 和 
后 3 组 数据 的 频数 篇 小 ， 故 分 别 将 前 、 后 3 组 数据 进行 合并 ,这 样 可 得 6 组 数据 , 这 6 
组 数据 所 属 的 数据 组 的 区 间 边 界 值 如 下 ， 
3a=[]; 
for 攻关 1 工 :5 
aa = (mecdf2 十 丰 ) 十 jetdff 了 十 丰 ) 727 
和 = 上 ay aa]; 
&Dd 
as[-intfainof] 
上 述 指令 的 运行 结果 是 ， 
a = 
一 In 
寺 .354D 
1.3820 
.4100 
1.4380 
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1.4660 
IE 
鲜 统计 经 验 频数 . 
经 验 频数 多 已 经 给 出 ， 只 需 分 别 合并 前 、 后 3 组 的 频数 ， 
宇 = [EC1) +TEC2) EC3) Ed43:7) 8)》+E(9) +E(L0)] 


上 述 指令 的 运行 结果 是 ， 
= 

12 

22 

23 

20 

13 

10 
曲 计算 理论 频数 . 
PEST= []; 
for 夺 = 1I:6 


PP = haozacdft(af+1)MUSIGMR) - normodffafi) NDSIGMR): 
BEST = [FEST,BP]; 
end 
THEY = 阅 + PEST” 
上 述 指令 的 运行 结果 是 ， 
THRRF = 
了 4 .6617 
173 .4417 
22.7293 
21 .2101 
14.1726 
9.7845 
回 计算 检验 统计 量 的 观测 值 . 
CHI2EST = Sun(( 芋 一 人 TH) .人 .ATHEZ) 
上 述 指 令 的 运行 结果 是 ; 
CHI2EST = 
1.8485 
@ 检验 决策 , 


了 
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k = 63 
工 二 2; 
alLPha = 0.10; 
dE=k-r-1i 
REFCR = chi2inv(1 - alpha, df); 争 拒 络 域 虱 界 值 
疡 =1- chi2cdf(CHI2EST, df); 本 检验 的 b 值 
if CHI2EST > RERCR 
h=1l; 
所 1 上 所 
h=0i; 
end 
alLPha,h,p,CHI2EST, REFCR 
上 述 指令 的 运行 结果 是 ; 
站 LPha = 
,1000 


0.6044 
CHI2RST = 
1 ,8485 
FEECR = 
6,.2514 
计算 结果 表明 ,在 0,10 显著 性 水 平 下 , h= 0 保留 原 假设 HB,， 即 2 氢 合 优 度 检 验 
认为 维尼 纶 纤 度 半 ~ N(1.4042，0.0178 ). 由 最 小 显著 性 概率 p= 0.6044 表明 ,当前 样 
本 数据 下 不 能 拒绝 原 假 设 ，H, 有 较 高 的 可 信 程 度 . 
4.3.1.2 列 联 家 的 独立 性 检验 
玉 ,Pearson-Fisher 的 ”统计 量 有 一 个 很 特别 的 应 用 , 即 可 以 用 来 检验 两 个 分 类 变量 
的 独立 性 . 
设 X 与 了 是 两 个 分 类 变量 ,不 妨 设 X 有 * 个 类 别 A,，A;，…，A.，Y 有 : 个 类 别 
3 ，B2，…，B,， 将 被 调 查 的 ” 个 样品 按 其 所 属 类 别 进行 分 类 ， 列 成 如 下 一 张 *xt 的 二 
维 表 , 见 表 4.9， 
表 4.9 也 称 为 *xt 列 联 表 . 其 中 ， 方 表示 同时 具有 属性 A， 和 的 样 吊 频 数 {; = 1， 
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了 上 


2 了 =1 2 扩 ， 一 27 方 ， 三， 芭 方 ， 2 27 广 二 2 访 二 2 二 尹 . 


甫 4.9 5Xf 列 联 守 








用 K,Pearson-Fisher 的 刀 统计 量 来 检验 变 基 X 与 的 独立 性 ， 检 验 假设 是 五 0: 拓 
与 了 是 独立 的 ; 有 :天 与 了 不 独立 ， 
对 Hu 的 检验 依赖 表 4.9， 因 此 这 类 问题 亦 称 为 列 联 表 的 独立 性 检验 . 记 
外 = PIXKEA, YEBI，p = 症 =2XeAh 蕊 = = PIYe 到 ， 
其 中 宇 = 1 2， 5， 了 三 1 2 于 是 检验 假设 可 园 - 步 明确 为 
瓦 0 8 二 起 .六 .站 对 所 有 zy 了 拘 成 立 ; 
责 :: 丰 天 让 ,起 至 少 存在 一 对 1 了 使 之 成 立 ， 
又 记 a， 思 .和 户 ， 的 极 大 似 然 估计 分 别 为 放 ， 施 . 和 用， 并 且 
多 = 方 /m， 包 = 六 ./m， 六 = 了 ;mr 。 
因此 ， 对 Fi 的 检验 可 以 通过 分 析 偏差 平方 和 >  y (多 - 多 多 靖 得 到 ， 当 成 立 
1=1 ji=1 


时 这 个 偏差 伴 方 和 不 应 过 分 偏 大 , 基于 这 种 理解 ,可 得 全 .Pearson-Fisher 的 六 统计 量 的 
变 式 表达 为 


只 下 


1 上 一 _ 了 
1 人 不 0_DG 1) 
生生 


当 再。 成 立时 X 统计 量 的 观测 值 不 应 过 分 偏 大 , 于 是 ， 对 于 给 定 的 显著 性 水 平 <， 检 验 
准则 为 

PXTDD)ESe， 
即 当 检验 统计 量 的 实测 值 :> _。((s -1)(:- 1)) 时 , 则 在 显著 性 水 平 " 下 拒绝 原 假 
设 苹 否则 保留 Ho. 在 7 统计 量 观 测 值 的 计算 中 注意 ，= 疡 .，= 天 .六 /ai=l2， 
2 ) ， 
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下 面 举 例 说 明 列 联 夫 的 独立 性 检验 ， 
[ 例 4.15】 某 地 调查 了 3000 名 失业 人 员 ， 按 性 别 和 文化 程度 分 类 如 表 4.10 所 示 ， 
衷 4.10 
大 专 以 上 中 专 技 校 高 中 初中 及 以 下 合计 


120 
442 














1043 
625 


1841 
15 人 


138 
如 















试 在 0.05 显著 性 水 平 下 检验 失业 人 员 的 性 别 与 文化 程度 是 否 有 关 ， 
分 析 这 是 列 联 表 的 独立 性 检验 问题 , 检验 原 假设 为 瑞 , :失业 人 员 的 性 别 与 文化 程 
度 无 区 ， 
MATLAB 数据 处 理 
已 1 全 昌 工 
alpha = 0.05; 
E = [40,138, 620,1043; 20,72,442,625]; 
[s,t] = sizeff)。 生 提 取 列 联 表 的 行 、 列 数 
d=(s-1)x<(t-1); 
fit_ = Sontft") 贡 行 边际 冰 数 
寺 j= sunff); 多 列 边 际 频 数 
ma= Suafsunr 大 )) 7 
nti jj = zerosfe ,七 ); 
for 奔 =1:2 
for j= 1:4 
nti fj(irj)=fi fi)yxE jtjyAa Y 联 会 分 市 律 
and 
end 
CHI2EST= suu(suaf (Enfi fj),2./nfiE j))， 多 检验 统计 重 的 值 
REFCR = chi2invf1l - alpha,df); ”拒绝 域 临 界 值 
pB=1- chi2cdf(CHT2EST df) 和 检验 的 p 人 慎 
址 CHI2EST > REECR 
hb=1; 
各】 沪 昌 
h=; 
end 
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al1phah,prCrI2KST REFCR 
上 述 指令 的 运行 结果 是 ， 
alphba = 

0.0500 


0.0620 
CHI2ZEST = 
7.3320 
RERCH = 
了 ,.B147 
计算 结果 表明 ， 在 0.05 显著 性 水 平 下 ，h=0，p>alpha 不 能 拒绝 原 假 设 ， 即 认为 失 
业 人 员 的 性 别 与 文化 程度 无 关 . 


4.3.2 KomworopoB-Cnwapaos 检验 
假设 灾 量 X 的 分 布 画 数 E(z ) 连 音 但 未 知 ， 在 给 定 显 著 性 水 平 下 ， 坎 检验 假设 
瑟 0:RRCz)= Fr 也 Er) 天 Fi(z)， 
这 个 问题 可 以 用 刀 拟 合 优 度 检 验 法 来 检验 ， 


但 是 ，X22 拟 合 优 度 检验 的 实质 是 比较 祥 本 频率 二 与 理论 频率 如 = Fo(ai) - 

Fufai -iD)， 也 就 是 说 只 是 检验 了 

HRF{ai) -fa =Eo(a)-Fofa 1i) (=12 0)， 
其 中 si 是 在 连续 变量 离散 化 的 区 间 划 分 过 程 中 得 到 的 ,也 就 是 说 只 是 检验 了 在 区 间 的 
分 点 处 Hi 是 否 成 立 而 已 ,这 祥 导 致 了 纳 的 风险 的 增加 . 于 大， 人 们 转 而 研究 更 加 完善 
的 检验 方法. 

旱 在 20 世纪 30 年 代 初 ，Kororopoa 对 分 布 拟 合 优 度 检 验 问题 进行 了 深入 的 研究 ， 
得 到 了 Kozwroropog 定理 ， 进 面 建立 了 分 布 拟 合 优 度 检 验 问 题 的 Komworopos 检验 法 利 
Capaos 检验 尘 . 
4.3.2.1 有 ozmoropos 检验 法 

Kororopoa 检验 法 也 是 比较 祥 木 经验 亢 数 F,(z) 和 变量 分 布 琐 数 Fu(z) 的 . 但 它 
不 是 在 划分 的 区 间 上 考 唐 F,(z) 与 原 假设 的 分 布 函数 Fi(z) 之 间 的 偏差 ,而 是 在 每 一 
点 上 考虑 它们 之 间 的 偏差 . 这 就 克服 了 “检验 法 依赖 于 区 间 划 分 的 缺点 ， 但 其 应 用 范 
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围 要 牵 一 些 ， 仅 适应 于 变量 的 分 布 函数 是 连续 函数 的 情形 ， 

根据 Treo 定理 ， 当 ”充分 大 时 ， 样 本 经 验 分 布 函数 F,(z) 是 变量 的 分 布 函数 
F(z) 的 很 好 近似 ，FE,(z) 与 ECz) 的 偏差 一 般 不 应 太 天 . Komworopog 用 下 (z) 与 F(z) 
之 间 的 偏差 的 最 大 值 构造 一 个 统计 量 

万, = sup | Fu(z)- Fo(z)|， 

并 且 得 到 了 下 面 的 定理 . 

定理 4,1 【Korworopoa 定理 } 设 (2 
FE{z) 为 连续 的 分 布 瘟 数 , 在 F(z)= Fufz)( 已 知 ) 的 条 件 下 ,有 


肥 P|D< 玉 | = K(z)， 


四 
其 中 go De 


0， 工 委 0 
称 为 Korworopop 分 布 ， 

定理 的 证 骨 参 见 文献 17] . 

根据 定理 4.1 检验 Bo:F(z)= Fo(z)， 若 假定 再 为 真 , 刚 当 = 充分 大 时 ,检验 统 
计量 D,= so | Pv(z) - Fa(z)| 的 信 一 般 应 该 比较 小 ,车 D, 的 信 较 大 就 应 该 拒 
也 0. 于 是 ,对 给 定 的 显著 性 水 平 x， 拒 钨 域 形 式 为 站 ,c， 检 验 准则 为 求 满足 条 件 
了 (Dec|B 为 真 )} 委 e 的 拒绝 域 痢 界 值 c. 

记 Di 。 为 Kozworopop 分 布 的 上 侧 e 分 位 数 ， 即 了 | 疙 空中 =a， 册 
Kormrxoropos 检验 法 的 决策 法 则 是 : 根据 样本 数据 计算 出 检验 统计 量 D ,的 观测 值 ， 车 

名 当 六, 空肠 时, 拒绝 刀 。， 即 认为 下 (z) 尖 Fof( 工 ); 

四 当 忆 <D。i-. 时 ， 接受 Ho,， 即 认为 下 (z)= 下 (z)， 

应 用 Kozworopos 检验 法 时 ， 原 假设 0:F(z) = Fufz) 中 的 Fu(z) 的 参数 应 该 是 已 
知 的 . 当 参 数 未 知 时 ， 对 于 正 态 分 布 或 指数 分 布 ， 可 用 参数 的 大 样本 估计 代替 ， 不 过 此 
时 的 检验 是 近似 的 ， 且 显著 性 水 平 " 在 0.1~0.2 为 宜 . 

下 面 概括 地 给 出 在 显著 性 水 平 " 下 , 用 KKomworopop 检验 法 检验 假设 

Ptz)=Fo(z)i 理 :Fr)2FI(Cz) 
的 步骤 ， 其 中 分 布 函数 F(z) 是 连续 函数 . 

名 样本 数据 排序 , 将 样本 数据 zl, zx, …, z,({ 通 常 * 沁 50) 按 由 小 到 大 的 次 序 排列 
得 四 委 z 了 四 委 人 … 扫 2 

@@ 求 出 经 验 分 布 函数 ， 
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下 (二 )》 一 四 开 昌 二 工 全 了 0 二 = 12p 
]， 工 次 7(， 

其 中 * 为 样本 数据 zE [zzu yn) 的 频数 , 且 六 = mn， 

计算 检验 统计 量 , 的 值 ， 
已 = se | 已 (z) 一 Bo(z)| =mxt [PCzo)- ECzo)l， FPCzusD)- Fo(zo) 
其 中 ,规定 下 (zu+nD)=1， 

图 求 Komoropos 分 布 的 上 侧 = 分 位 数 D,_ 。 当 靖 >100 时 ,常用 的 忆 ,， ,近似 
公式 如 下 ， 
Doaoss1.07/V ma， Dooss1.23/Va， Dossse1.36/V1， Doomee1,63/AT， 

加 检验 决策 . 

若 也, 产 D 1-。 则 拒绝 本 oo， 认为 样本 数据 非 来 自理 论 分布 Fu(z) 的 ; 

荐 D,< Di-。 则 接受 本 0， 认 为 样本 数据 是 来 自理 论 分 布 Fu(z ) 的 . 
4.3.2.2 ”Campaos 检验 法 

ChMahaos 检验 法 是 对 Koxmoropoa 检验 法 的 一 种 推广 . 

设 妃 ， 大和 dF(z) Yi TY 证 G(z) (下 = 二 2 
F(z) 和 G(z) 均 为 连续 的 分 布 函 数 ，- ceo<r< + 上 , 在 显著 性 水 平 s 下 ,检验 假设 

TIF(z)=C(zi FIz) 天 个 (z). 
用 已 (z) 和 Gu(r) 分 别 表示 两样 本 的 色 验 分 布 函数 ,用 它们 构造 检验 统计 量 
卫 ， = SP | FL(z) 一 Cotz) ， 

CMzpaos 证 明了 下 面 的 定理 ， 

定理 4.2 {Korxoropoa-CwspHos 定理 } 当 殖 , 为 真 王 样本 容量 ” 和 m 分 别 趋向 于 
co 时 ， 有 





}， 





lim 忆 站 D <zj=K(r)， 
# 玉 


Jim 天 
其 中 其 (z) 是 Komoropos 分 布 函数 . 
根据 定理 4,2， 可 得 检验 Hu:F(z)y= CUz) 的 Cagppog 检验 法 则 (近似 )， 
四 若 D 关 Di 。， 则 拒绝 瑟 ， 认 为 下 (z) 天 G(z)i 
图 知 D <DP， ii 。， 则 接受 可 ,认为 (z)=G(zr)， 


应 用 中 ， 确 定 Komworopoa 分 布 的 分 位 数 D,， 1-, 时 , 用 N=| 2 | 代 蕉 前 述 分 位 
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数 近 亿 公 式 中 的 ， 而 计算 中， 的 观测 值 用 公式 
Do = max| F.(z0)- Go(zto)|， 

其 中 ，>z， 为 划分 变量 值 域 的 第 ; 个 小 区 间 的 组 中 值 ， 

MATLAB 将 这 两 种 检验 方法 统称 为 KomMoropoa-CwrpHog( 英 文书 写 为 Kolmogorov- 
Smimov) 检 验 ， 并 提供 了 两 个 检验 函数 kstest 和 istest2 

(kstest， 

函数 kstest 用 于 大 样本 情形 下 连续 变量 分 布 形态 的 氟 合 优 度 检 验 ,调用 格式 为 

[Rh, P, statgs, cv] = stest(x,odE,alpha,tail) 

其 中 ， 输 入 参数 x 为 样本 数据 向 基 ，edf 为 检验 药 原 假设 所 指定 的 分 布 形式 (具体 引用 为 
变 基 的 累积 分 布 函数 ， 缺 省 时 cdf = []， 表 示 毛 合 标准 正 态 分 布 1，alpha 为 检验 的 显著 性 
水 平 ( 缺 省 时 为 0.05)，tail 为 备 择 假设 类 型 的 标示 值 . 输出 参数 b 为 检验 决策 ， p 为 拒绝 
原 假设 的 最 小 显著 性 概率 ，stats 为 检验 统计 量 的 值 ，ev 为 拒 忽 城 的 临界 值 ， 

加 函数 kstest2. 

函数 kstest2 用 于 大 样本 情形 下 两 个 连续 变量 分 布 一 致 性 的 检验 ， 调用 格式 为 

[hp, stats] = XKstast2(x,y,alpha,tatly 

检验 的 原 假 设 是 两 个 变量 服从 相同 的 分 布 . 输入 参数 x 和 y 人 别 为 两 人 糙 本 的 数据 向 
基 , 其 他 输入 、 输 出 参数 的 意义 同 kstest， 

{ 例 4.16]】 在 0,10 显著 性 水 平 下 ， 用 KommoropoB-Cytmpao 检验 基 鸡 例 4.14 中 的 
维尼 给 纤 度 数据 进行 正 态 性 检验 ， 

分 析 检验 的 原 假设 是 维尼 纶 纤 度 服从 正 态 分 布 . 

MATILAB 数据 处 理 

立 ] 丰 8 

load WwWnlzd 

[mm SIGMA] = aorafit(wnlzxd) 

x= (mlxd - MD)ASIGNMN; 

[h,p, ststs,cv] = kstest{x,[],0.10,0) 

上 述 指 令 的 运行 结果 是 : 
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p = 
0 .3713 
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结果 表明 ,接受 原 假设 ， 即 认为 维尼 给 纤 度 服从 均值 为 1.4042、 标 准 盖 为 0.047 
的 正 态 分 布 . 。 
这 里 补充 说 明 一 点 ， 关 于 尚 个 变量 分 布 一 致 性 的 检验 方法 ， 除 Capaoa 检验 法 ,还 
有 如 Wilecoxon 符号 秩 检验 法 、 符 号 检验 法 等 ,有 些 方法 在 小 样本 条 件 下 可 能 更 为 有 效 ， 
好 于 篇 幅 本 书 未 作 介 绍 . 希望 了 解 这 些 方法 的 读者 可 参阅 其 他 数理 统计 教程 ， 如 文献 
[2], 祖 关 的 MATLAB 检验 函数 可 参见 本 书 附录 也, 


4.3.3 正 态 性 检验 


检验 变量 是 否 服从 正 态 分 布 是 统计 应 用 中 最 常见 也 是 最 重要 的 问题 , 此 类 问题 当然 
可 以 用 Komoropoa-Cwapoa 检验 法 进行 , 但 是 , 由 于 受 样本 符 量 因素 的 影响 ， 有 时 检验 
效果 可 能 不 理想 , 因此 ， 人 们 发 现 了 一 些 专门 的 正太 性 检验 方法 ， 其 检验 效果 一 般 比 通 
用 方法 好 . 这 里 介绍 三 种 常用 的 正 态 性 检验 方法 ， 
4.3.3.1 正 过 概率 纸 检验 法 

正 态 概率 纸 是 一 种 现场 统计 常用 的 兰 断 变量 正 态 性 的 简单 工具 ， 使 用 它 订 以 很 癸 地 
判断 变量 是 否 服 从 正 态 分 布 ， 还 能 够 粗略 地 估计 出 分 布 的 数字 特征 ， 


首先 介绍 正 态 概率 纸 的 构造 原理 . 
设 变 量 入 的 分 布 函 孝 为 下 (z)， 需 要 检验 
一 No (oo<pc+oo， os0)， 


在 原 假设 Hi 成 立时 ,人 和 = ~ N(0,1)， 而 且 F(z) 可 用 标准 正 态 分 布 N(0,1) 
分 布 函数 8(z) 来 表示 
F(z)= 昌 | 于 -4 | = @(z)， 
其 中 zx= 二 (zz 
在 z0yx 直角 举 标 平面 上 ， 假 定 机 轴 (z 精 ) 与 纵 轴 (。 轴 ) 的 单位 长 度 相等， 卫 数 
“= 了 (z 一 的 图 像 是 一 条 直线 ， 过 点 (7,0)， 介 率 为 了 
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为 使 这 条 直线 能 够 直观 地 解释 变量 的 取 值 x 与 己 {X 委 zj 之 间 的 关系 ,进行 如 下 符 
标 刻度 更 新 : 在 直角 坐标 系 >Ou 中 ， 保 竺 横 轴 上 zx 的 刻度 不 变 ， 而 把 纵 轴 上 x 的 刻度 
更 新 为 ?= 100@{w )， 并 规定 100@( - co)=0，100 芋 (+ oo )= 100. 这 样 就 将 直 前 坐标 
zOw 更 新 为 直 和 泽 标 系 xDy. 由 于 y 轴 上 的 刻度 0 与 100 分 别 对 应 zx 四 上 的 - ce 与 
+e， 四 此 y 轴 上 无 法 标示 由 0 与 100， 一 般 y 轴 上 的 共度 标示 限于 0.01 到 99,99 之 
间 . 称 以 直角 坐标 系 xzOy 为 刻度 体系 的 坐标 纸 为 正 态 概率 纸 . 

根据 正 态 耘 率 纸 的 构造 原理 可 知 , 在 zxOw 直角 坐标 系 中 的 = 与 yx 的 关 蒜 , 在 zxOy 
直角 坐标 系 中 就 成 为 z 与 ?=100P[XSr1=100F(z)=100 信 (xz)) 的 关系 ; 反之 亦 然 ， 


符 别 对 于 正 态 概率 纸 上 的 一 条 直线 ， 若 该 直线 能 表示 为 ,= 二 (z ~- p)， 则 100F(z) 与 
xz 的 关系 为 
100F(z)=100 王 (1w) = 100g| 4 ， 


即 F(z)= g| | ， 
也 就 是 说 ，F(z) 是 一 个 正 态 分 布 的 分 布 函数 . 

这 表明 , 正 态 概率 纸 上 斜率 存在 旦 大 于 零 的 全 体 直 线 折 组 成 的 集合 与 全 体 正 态 分 布 
所 组 成 的 正 态 分 布 族 之 间 存 在 一 一 对 应 关系 ， 

下 面 介绍 正 态 概率 纸 检验 法 检验 原 假 设 刀 , 的 具体 步 更， 

为 了 检验 假设 本 ， 设 XXX， iid. 一 F(z)， 求 出 经 验 分 布 函数 FF (z)， 然 
后 在 正 态 帮 率 纸 描 出 点 列 (z,, 100F (zi,)) (i = 1,2,…,2). 根据 Tmmeesgo 定理 , 当 >” 
充分 大 时 , 样本 经 验 分 布 阔 数 F,(z) 是 变量 的 分 布 范 数 F(z) 的 很 好 近似 , 因此 , 当 五， 
为 走 时 ,在 正太 概率 纸 上 点 列 ( zj,100P,(zi)) (= 2 ,na) 应 该 近似 地 在 一 条 直线 
附近 ， 知 则 认为 瑟 。 不 成 立 ， 即 变量 X 不 服从 正 态 分 布 , 具体 的 检验 步 双 如 下 ， 

@@ 整理 数据 , 把 样本 观测 值 由 小 到 大 排列 (说 ”个 数据 仅 有 个 互 异 )， 克 表 
4.11. 


表 4.11 














夏 正 经 验 分 布衣 数 值 F (rin) 





由 于 正 疼 概率 纸 无 法 描 出 纵 坐 标 为 100F,(z) = 100 的 点 ， 故 把 F (zx ) 和 修正 为 
F,. (z), 这 种 修正 在 祥 本 容量 比较 小 时 很 有 必要 ; 在 样本 容量 比较 大 时 ， FF(《z) 与 
F。(z) 非 常 接近 . 


和 莫 4 章 并 设 检验 “125， 


图 撒 点 , 把 点 列 {z,100P (zi)) (=12,…2) 措 在 正 态 概率 纸 上 . 

时 判断 . 目测 这 些 点 的 位 置 ， 如 果 这 mm 个 点 近似 地 在 一 条 直线 蕊 的 附近 (对 应 
zt0，xztm) 处 允许 偏离 直线 远 些 )， 则 接受 原 假设 Ho; 否则 拒绝 原 假设 呆 . 

二 参数 估计 . 若 接受 原 假设 Hi， 则 画 出 这 条 直线 工 ( 用 最 小 二 科 拟 合 ， 参 见 第 6 
章 ), 由 wx = 一 (zA) 可 向: 当 x=0 时 ，z=A;i 当 4&=i 时 ,rc=z-A. 于 是 : 

在 正 态 概率 纸 上 画 一 条 水 平 直线 y= 50( 即 zOz 系 的 直线 zx = 人 0， 它 与 直线 工 的 交 
点 横 坐 标 ze 可 作为 均值 p 的 估计 ， 即 &= zi 

在 正太 概率 纸 上 画 一 条 水 平 直线 7?= 84.13( 即 xDx 系 的 直线 zx = 1)， 由 它 与 直 钱 工 
的 交点 横 人 标 z, 可 推出 标准 盖 e 的 估计 ， 即 ?= zi “= zi -xz 

在 实际 问题 中 , 通常 数据 都 比较 冤 , 常 采 用 简化 计算 的 方法 , 把 数据 按 等 间隔 分 组 ， 
尽量 使 每 组 至 少 包含 一 个 数据 ， 狱 后 以 组 中 值 作为 该 组 所 有 数据 的 值 ， 每 组 所 包含 的 数 
据 个 数 作为 取 该 组 中 值 的 频数 ， 修 改 的 经 验 分 布 函数 的 观测 值 F* ( zy ) 由 组 中 信 与 它 
的 频数 诀 定 
。 W 十 和 十 册 

了 (zi 二 

其 中 ，” 为 样本 容量 (数据 个 数 ); ro 为 由 小 到 大 顺序 的 第 ;组 的 组 中 值 ; v 为 该 组 的 
组 频数 , 当 数 据 的 个 数 多 于 和 个 时 , 分 为 10 到 25 组 为 宜 ， 

MATLAB 提供 了 利用 正 态 概率 纸 检验 变量 正 态 性 的 绘图 机 数 normplot， 其 调用 格 
式 为 normplot(x)， 输 入 参数 x 是 祥 本 数据 罕 莉 
4.3,3.2 Liiefors 检验 

Lilliefors 检验 法 是 对 Kormoropos 检验 法 的 一 种 改进 ， 

设 XXX 1.d. 一 X， 和 的 分 布 未 知 . 需要 检验 

本 Nae ) (一 oo<p<+ooyos>0)， 








令 区 = 工交 成 ,3S= 上 有 上 > (GE -人 ,2 = 二 人 = 1 2 9) 则 
7= 工 二 1 
当 丽 o 为 真 时 ， 标 准 化 样本 2 Z2 ,Zi.i.d. 一 N(0,1)， 于 是 Komworopos 统计 量 可 修 


正 为 








已 ,= sp | So(z) 一 更 (7) ， 
其 中 ，S,(z) 是 标准 化 祥 本 的 经 验 分 布 函数 ， 这 就 是 Lilliefors 检验 的 检验 统计 量 . 
其 他 如 检验 法 则 、 检 验 砂 骤 等 与 Kommworopoa 检验 法 类 似 ,这 里 不 再 乾 述 ， 
由 Lilliefors 检验 的 检验 统计 量 的 构造 特点 相知， 该 方法 与 Korworopoa 检验 法 的 最 
大 不 同 之 处 是 检验 不 需要 已 知 分 布 参数 ,样本 的 标准 化 避免 了 在 正 态 拟 合 优 度 检验 之 前 
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对 分 布 参数 的 估计 ， 因 此 该 方法 可 在 小 样本 条 件 下 使 用 ， 
MATLAB 提供 了 Lillietors 检验 法 的 检验 函数 lilietest， 其 调用 档 式 为 
fbh, p, stats, cv] = 1i11ietest(x,alpha,tail} 
其 输入 、 输 出 做 数 的 意义 同 kstest. 
4.3.3,3 Jarque-Bera 检验 
Jarque-Bera 检验 是 一 种 常用 的 、 基 于 峰 度 与 偏 度 联 会 答 验 的 正 态 性 窒 验 方法 . 
设 Xi X2…， Zn id 一 ， 的 分 布 未 知 .需要 检验 
一 NIpo) 【-co<p<+eooyo2>0)， 


令 三 工 》( 一 误 )， Jarque 和 Bera 由 样本 蜂 度 KU = 直 和 全 呈 本 
1 于 “ “ 


理 KU=3)] 
J = 三 | SK2+ 区 C-3 ， 


并 证 明了 在 五。 为 真 的 条 件 下 ，7 渐 近 地 服 从 自由 朗 为 2 的 y2 分 布 ， 
由 于 正 态 分 布 的 峰 度 KU = 3， 偏 度 SK = 0， 因 此 检验 统计 量 J 的 观测 值 越 大 越 对 
苇 不 利 . 于 是 ,对 于 给 定 的 显著 性 水 平 ,检验 准则 为 P1J > zz (2)1<g， 当 检 验 统 


计量 的 实测 值 J> z1_ ,(2) 时 ， 则 在 显著 性 水 平 " 下 拒绝 原 假设 鼠 ,， 否 则 保留 吾 ，. 

由 于 检验 依据 的 是 渐 近 分 布 ， 因 此 该 方法 应 在 大 样本 条 件 下 使 用 ， 

MATLAB 提供 了 Jarque-Bera 检验 法 的 检验 函数 jbtest， 其 调用 格式 为 

[hh, p, stats, ev] = jbtest(x,alpha,tail) 

其 输入 、 输 出 参数 的 意义 周 kstest. 

[ 例 4.17】 在 0.10 显 著 性 水 平 下 ,分别 用 正 态 概率 纸 检验 法 、Lilliefors 答 验 法 和 
Jarque-Berta 检验 法 对 例 4.14 中 的 维尼 纶 纤 度 数据 进行 正 态 性 窒 验 . 

分 析 检验 的 原 假 设 是 维尼 纶 绎 度 服 从 正 态 分 布 . 

MATIAB 数据 处 理 

如 LSBI 

load NMnlxd 

外 正 态 概率 纸 检 验 法 ， 

Doraplot(wnlxd) 

上 述 指令 的 运行 结果 见 图 4,1， 

四 Lilliefors 检验 法 . 

[Z_h,z_pj = T11ietestt WnLxd, 0 10) 

上 述 指令 的 运行 结果 是 ， 
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图 4,1 正 赤 枝 率 纸 检验 图 


和 .0451 

侠 Jarque -Bera 检验 法 ， 

[JI 了 ,了 了 ] = jbtestfnlxd'0.10) 

上 述 指令 的 运行 结果 是 ; 

Th = 

0 
让 昌 一 
0.3738 

共 正 态 概 率 纸 检验 图 4.1 可 以 看 出 ，100 个 样本 数据 的 (z,，100F (zx )) 点 列 在 一 直 
线 附近 ， 故 可 认为 维尼 给 纤 度 教 据 来 自 正 态 分 布 . 大 图 4.1 中 可 以 粗略 地 估计 出 维尼 给 
纤 度 的 均值 约 为 1.4， 标 准 差 约 为 1,45-1.4=0.05， 

Jarque-Bera 检验 法 的 结论 是 接受 维尼 缀 纤 度 服从 正 态 分 布 的 假设 . 

值得 注意 的 是 ， Liliefors 检验 法 得 到 的 结论 是 拒绝 维尼 给 纤 度 服 从 正 态 分 布 的 候 
设 ,这 是 由 于 样本 数据 的 标准 化 变换 , 使 得 该 方法 对 异常 数据 (极端 数据 ) 反 应 敏感 . 其 
实 , 若 注意 到 第 99 个 数据 zw%=1.55 是 wnlxd 数 据 集中 的 最 大 信 ， 从 正 态 概率 纸 检验 的 


图 形 中 可 以 看 出 这 个 最 大 信 过 于 偏离 直线 ?= 一 (z 一/)， 所 以 xm 是 一 个 异常 数据 . 若 
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从 wnlxd 数据 集中 删除 这 个 数据 ， 重 新 进行 检验 ， 如 下 所 示 ， 
mlzxd(99) = []; 
[hh,p] = 1i11ietest(wnlxd,0.10) 
上 述 指令 的 运行 绪 果 是 : 
有 = 
0 
B = 
0.1136 
结果 开明, 剩余 的 99 个 维尼 纶 纤 度数 据 是 来 自 正 态 分 布 的 ， 与 另外 两 种 检验 方法 
的 结论 一 致 ， 


习题 4 


1,， 某 砖 厂 生 产 的 红 砖 的 抗 断 张 度 X( 章 位 : X 10"Pa]) 服 从 正 态 分 市 ， 设 方差 o = 
1.21， 从 产品 中 随机 地 抽取 6 块 ， 测 得 抗 断 张 度 为 32.66，29.86，31.74，30.15， 32.88， 
31,05. 试 检验 这 批 红 砖 的 平均 抗 断 强度 是 否 为 32.50X10*Pa? (ae =0.05) 

2 某 食品 厂 用 自动 装 雄 机 装 堆 头 食品 ， 每 雁 标 准 质 重 为 500g， 现 只 革 天 生产 的 雁 
头 中 随机 抽取 9 诊 ， 其 质 醒 (单位 ; g) 分 别 为 S10，505，498，503，492，502，497，506， 
495， 假 定 雁 头 质 重 服 从 正 态 分 布 ， 问 : 抗 器 工作 是 示 正 常 ; 能 否认 为 这 批 雁 头 质 重 的 方 
羡 为 5.52? 〔w =0.05) 

3， 要 比较 甲 、 志 两 种 轮 脱 的 耐 磨 性 ， 现 从 四 、 忆 两 种 轮胎 中 各 取 8 个 ,再 各 取 一 个 
组 成 一 对 ， 随 机 选取 日 某 飞 机 ，8 对 轮胎 磨 硼 量 (单位 : mg) 数 据 见 表 4.12， 

训 4.12 

2 四 ) 4900 5220 550 6020 6340 7660 86 和 0 4870 
3 4930 4900 5140 5700 610 6880 7930 5010 


试问 这 两 种 轮胎 的 而 磨 性 有 无 显著 兰 异 (wa =0.05)? 假定 中 已 两 种 轮 脱 的 磨损 重 
分 别 满 足 太一 N(pa; o2)， 了 一 N(Hpa，c2]， 且 两 个 样本 相 至 独 幸 ， 

4. 生产 工序 中 的 方 关 是 工序 质量 的 一 个 重要 指标 . 道 常 ， 较 大 的 方 盖 表 明 县 有 通过 
寻求 减 小 工序 方差 的 途 程 来 改进 质量 的 机 会 .《 质 量 营 理 杂志 上 刊 栽 了 有 关 两 部 机 器 生 
产 的 党 装 质量 数据 (以 g 为 单位 ), 进行 统计 检验 以 确定 两 部 机 器 所 装 忱 质量 的 方差 是 屡 
有 显 落差 异 ， 取 显著 性 水 平 为 0.05， 你 有 何 结论 ? 哪 部 机 器 在 更 大 的 改进 质量 的 机 会 ? 
候 定 总 体 服从 正 态 分 布 . 两 部 机 器 所 装 沈 质 童 的 数据 如 下 ， 

机 回 1; 2.95，3.45，3.50，3.75，3,48，3 .26， 3.33，3.20，3,16，3.20，3.22， 
3.38，3.9，3.36，3.25，3.28，3.20，3,22，2.98，3 .45，3.70，3.34，3.18，3.35， 
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3.12; 

机 器 2， 3.22，3.30，3.34，3.28，3.29，3.25，3 ,30，3.27，3.38，3.34，3.35， 
3.19，3.35，3.05，3,36，3,28，3,.30，3.28，3.30，3.20，3.16， 

S. 某 商场 经 理想 研究 家 电 部 与 服装 部 的 每 天 销售 客 ( 划 位 : 万 元 ) 的 变动 量 是 否 相 
同 ， 为 此 他 收 业 了 一 周 时 间 的 每 日 销售 额 ， 数据 如 下 . 

家 屯 部 ; 5480，3500，6302，2100，3985，8670，7850; 

服装 部 : 2300，2016，2872，2559，4100，4320，4862 
假设 每 日 销售 额 总 体 中 从 正 态 分 布 ， 试 在 we=0,05 的 显著 性 水 平 下 检验 两 个 部 门 的 日 销 
售 额 的 方差 巡 否 相同 ， 

6. 检查 一 本 书 的 100 页 ， 记 录 各 页 印刷 错误 的 个 数 ， 其 绪 果 见 表 4.83， 

表 4.13 

错误 个 数 站 2 3 4 6 7 及 以 上 
含 错误 个 玫 的 页 表 36 可 ]19 2 0 2 1 0 
问 能 否认 为 一 页 的 印刷 错误 个 数 服 从 泊 松 分 市 (ae =0.05) 

7 了. 检验 下 列 数 据 是 否 来 自 正 态 分 布 (a =0,05): 

66，72，32，78，81，76，57，79，65,，70，77，73，90，93， 

71，74，61，86，90， 明 ， 归 ，77，76，66，57，81，51，65， 

8. 15 名 新 生 的 入 学 考试 成 绩 如 下 : 

481，620，642，515，740，525，540，598，562，395，615，596，618，584，580， 
用 Iilliefers 检验 来 答 验 其 正 态 性 . 

9 旋 检 验 下 面 两 组 数据 是 否 服从 相同 的 分 布 ? 

Ai; 8.655，10.019，9 .880，8.797，9.071，9.071; 

B: 8,726，8.371，9 .131，8 ,946，7 了 ,436，8 ,000，7.332，8 .097，6.805， 

10. 为 了 比较 两 种 不 同 规格 灯 冀 制 虽 的 灯泡 使 用 寿命 { 草 位 : hb)， 分 别人 愉 甲 、 起 两 批 
灯泡 中 芋 机 地 抽取 若干 个 灯泡 进行 寿命 试验 . 测 得 数据 如 下 . 

甲 ; 1420，1450，1425，1470，1465，1480， 

已: 1425，1445，1410，1420，1415， 
试 判 断 这 两 种 灯 演 使 用 寿命 是 否 有 明显 的 羡 异 ， 

11. 2005 年 “新 流 " 网 络 调查 的 一 个 问题 是 :“ 在 过 去 的 12 个 月 中 ， 当 你 公务 旅行 
时 ， 你 最 常 买 柯 种 机 票 人 "得 到 的 数据 见 表 4,14. 取 a=0.05， 检 验 航 班 类 型 与 机 票 类 型 
的 独立 性 ， 你 有 和 何 结论 ? 





“130 。 招 理 统计 与 于 497.4 刀 数据 处 理 








圳 4,14 
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12. 某 企 业 新 近 推 出 的 产品 育 四 种 款式 ,和 谷 了 解 不 同 地 区 珊 客 与 新 产品 的 不 同 款式 
是 否 育 关 ， 随 帮 从 三 个 地 区 抽取 了 460 位 顾客 进行 调查 ， 获 特许 料 见 表 4,15. 
唐 4,15 











检验 不 同 地 区 与 新 产品 的 款式 是 否 育 关 ， 即 检验 两 者 之 闻 的 其 末 是否 相 互 独立 . 
fa=0.05) 





* 了 3 ， 
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方差 分 析 是 重要 的 、 诺 用 广 证 的 实验 数据 统计 分 析 方 法 ,其 实质 是 检验 多 个 变量 均 
值 的 一 致 性 . 由 于 检验 的 统计 推断 是 通过 讨论 实验 数据 的 变异 性 以 及 变异 的 来 源 作 出 
的 ， 而 统计 分 析 刻 画 数 据 变 异性 的 基本 统计 量 是 样本 方差 ， 因 北 ， 习 惯 上 称 这 种 多 变量 
均值 一 致 性 的 假设 检验 为 方差 分 析 . 本 章 介 绍 方差 分 析 的 基本 概念 、 单 因素 方差 分 析 和 
双关 素 方差 分 析 方 法 ， 


5$.1 方差 分 析 概 述 


在 实际 问题 的 研究 过 程 中 ， 影 响 一 事物 的 因素 往往 很 多 . 例如 在 某 化 工 生产 中 , 原 
料 成 分 、 原 料 剂量 、 催 化 剂 、 反 应 时 间 、 机 器 设备 及 操作 人 员 等 六 素 对 产品 的 质量 和 数 
量 都 有 可 能 产生 影响 . 通常 称 试验 世 考 查 的 事项 { 如 产品 的 质量 、 数 量 ) 为 实验 撕 标 或 响 
应 变量 ， 称 影响 试验 拱 标 的 因素 (如 原料 成 分 、 原 料 剂量 、 催 化 剂 、 反 应 时 间 、 机 器 设备 
及 操作 人 员 等 ) 为 试验 因素 或 因子 

试验 因子 对 实验 指标 所 产生 的 影响 有 大 小 、 主 次 之 分 . 在 实际 的 试验 中 ， 人 们 总 是 
控制 那些 次 要 因子 使 之 尽 可 能 地 不 发 生变 化 ， 而 对 那些 主要 因子 尝试 不 同 的 处 理 方式 
(时 同一 个 因子 于 不 同 的 状态 )， 以 考查 它们 对 实验 提 标 的 影响 例如 ， 根 据 实际 情况 ， 
在 原料 成 分 、 原 料 剂量 、 机 器 设备 及 操作 人 员 等 因 于 基本 保持 一 致 的 条 件 下 ， 主 要 考查 
催化 剂 和 反应 时 间 对 产品 的 数量 指标 的 影响 ， 因 此 选择 了 3 种 不 同 的 催化 剂 (3 种 状 
态 )、4 种 不 辣 的 反 底 时 间 (4 种 状态 ) 等 , 通常 称 因子 所 处 的 状态 为 因子 水 平 或 处 理 ， 

实验 的 目的 就 是 判断 在 因子 的 不 同 处 理 下 响应 变量 是 否 有 差异 ， 以 及 因子 最 优 处 理 
是 哪 一 种 . 在 实验 数据 的 统计 分 析 中 , 回答 这 一 类 问题 的 基本 方法 就 是 比较 每 一 种 处 理 
下 响应 变量 的 均值 是 否 相等 , 在 此 例 中 ， 由 于 考 起 催化 剂 和 反应 时 间 两 个 不 同 因子 ,而 
因子 的 各 种 处 理 的 搭配 有 3x4= 12 种 ， 困 北 , 产品 数量 这 一 响应 变量 分 害 为 12 个 具体 
(不 同 处 理 下 ) 的 变量 ， 若 这 12 个 变量 的 均值 不 相等 ， 则 说 明 催化 剂 和 反应 时 间 两 个 因 
子 对 实验 的 结果 是 有 影响 的 ， 

为 方便 起 见 ， 今 后 用 大 写字 母 4，B，C 等 表示 因子 ,用 大 举 字 母 加 下 标 表示 该 因 
子 的 水 平 ， 如 因子 4 的 水 平 用 4,，A4;，… 表 示 ， 

为 方便 说 明 方差 分 析 的 基本 思想 与 方法 ,下 而 考查 一 个 简单 的 、 易 于 理解 的 例子 . 

【 例 5.1] 一 位 英语 教师 想 检查 兰 种 不 同 教学 方法 的 效果 ， 为 此 随机 逃 取 24 名 学 
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生 并 把 他 们 分 成 3 组， 相 度 地 用 3 种 方法 教学 ， 一段 时 间 后 ， 这 位 教师 对 这 24 名 学 生 进 
行 统考 ,统考 成 线 见 表 5.1, 试问 在 0.05 显著 性 水 平 下 ， 这 三 种 教学 方法 有 无 显著 性 差 
异 ? 

衣 5.1 英语 成 绩 表 








表 5.1 中 ,41，42>，A; 是 这 位 英语 教师 采用 的 不 同 教 学 方法 ,各 有 其 侧重 点 . 我 们 
的 目的 是 判断 不 同 教学 方法 对 英语 学 习 成 绩 是 否 有 显著 影响 . 若 有 影响 ， 哪 一 种 教学 方 
法 好 ? 

此 例 中 仅 有 一 个 因子 (教学 方法 ) 对 实验 指标 或 响应 变量 (英语 成 线 ) 可 能 产生 影响 ， 
而 因子 有 三 种 不 同 的 处 理 ( 三 种 教学 方法 ). 所 以 ， 这 是 一 个 因子 的 三 种 处 理 的 比较 问 
题 . 在 进行 统计 分 析 时 ， 将 不 同 处 理 下 学 生 的 英语 成 绩 看 做 三 个 不 同 的 变量 ， 仍 可 用 
Ai 42， 4s 表示 ,并 且 分 别 记录 实验 数据 (每 一 名 学 生 的 考试 成 绩 见 表 5.1)， 通 常 假 定 
每 一 个 变量 服从 方差 相等 的 正太 分布 . 

容易 理解 , 不同 的 教学 方法 下 学 生 的 英语 成 绩 可 能 是 不 同 的 ; 在 同一 种 方法 下 , 厅 
同学 生 的 英语 成 绩 也 可 能 是 不 同 的 . 也 就 是 说 ,实验 数据 是 在 差 异 的 ， 而 差异 可 能 是 由 
因子 的 不 同 处 理 ( 三 种 不 同 的 教学 方法 ) 引 起 的 ， 这 种 差异 称 为 实验 数据 的 条 件 误 羞 ; 可 
能 是 由 随机 因素 (不 可 控制 或 不 可 预知 的 因素 ， 如 考试 时 的 环境 、 时 间 对 学 生 的 影响 ) 引 、 
起 的 ， 这 种 差异 称 为 实验 数据 的 随机 误 羞 或 实验 误差 . 方差 分 析 的 主要 任务 就 是 推断 在 
因子 的 不 同 处 理 下 响应 变量 的 均值 (三 种 不 同 教学 方法 下 学 生 的 英语 平均 成 绩 ) 是 否 一 
致 ， 而 进行 推断 的 基本 思想 就 是 分 析 实 验 数据 的 差异 来 源 . 在 后 而 的 讨论 中 可 以 看 到 ， 
其 中 关键 性 的 想法 是 考查 实验 数据 的 偏差 平方 和 ， 并 设想 将 数据 总 的 偏差 平方 和 按照 产 
生 的 原因 分 解 成 . 

总 偏差 平方 和 = 条件 误差 平方 和 十 随机 误差 平方 和 ， 

然后 进一步 比较 这 两 种 偏差 平方 和 的 大 小 , 按照 一 定 的 统计 假设 检验 的 规则 确定 总 的 差 
异 (总 偏差 平方 和 ) 帘 竟 是 由 条 件 误差 (因子 的 不 同 处理 引 起 的 偏差 平方 和 ) 还 是 随机 误 
差 ( 随 机 因素 引起 的 偏差 平方 和 ) 决 定 的 . 如 果实 验 据 的 差异 是 由 条 件 误差 决定 的 , 则 
说 明 在 因子 的 不 同 处 理 下 响应 变量 的 均值 是 不 同 的 ; 如 果 差 异 不 是 由 条 件 误差 决定 前 ， 
则 在 因子 的 不 辣 处 理 下 响 旋 变 量 的 均值 应 当 是 一 致 的 
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$.2 单 因 子 方差 分 析 


s.2.1 单 因子 试验 的 统计 模型 及 检验 方法 


s.2.1.1 统计 模型 

例 5.1 中 所 考查 的 因子 只 有 一 个 ， 称 其 为 章 因 子 试 验 . 通常 在 单 因 子 试验 中 , 设 因 
子 4& 有 rr 个 水 平 4 ,4 …, 和 ( 即 试验 中 有 > 个 处 理 )， 在 每 一 水 平王 考查 的 指标 可 以 
看 成 一 个 变量 . 现 有 r 个 水 平 ， 故 有 > 个 变量 , 为 简化 起 见 ， 需 要 给 出 若干 假定 ,把 所 
要 回答 的 问题 归结 为 一 个 统计 问题 ， 然 后 设法 解决 它 . 假定 ， 

@@ 每 一 变量 均 服 从 正 态 分 布 ; 

四 每 一 变量 的 方 盖 相同 ; 

加 从 > 个 变量 抽取 的 样本 相互 独立 ， 

我 们 要 比较 各 个 变量 的 均值 是 否 一 致 ， 设 第 ; 个 变量 的 均值 为 上 ， 那 么 就 要 检验 如 
下 假设 : 

有 0:Ai 二 = 二， 
其 备 择 假 设 为 
Hi:Al, pa pr 不 全 相同 . 

通常 末 可 以 省 略 不 写 . 

当 五 为 真 时 ， 称 因子 4 的 各 水 平 间 无 显著 差异 ， 简 称 因 子 A 不 显著 (此 时 在 例 
5.1 中 得 出 不 同 的 教学 方法 对 英语 学 习 成 绩 没 有 显著 影响 ); 反之 ， 当 五。 不 真 时 ， 各 六 
不 全 相同 ， 这 时 称 因 子 A 的 各 水 平 间 有 显著 差异 ， 人 简称 因子 A 显著 , 

用 子 检验 假设 号 的 统计 方法 称 为 方差 分 析 法 ， 其 实质 是 检验 若干 个 具有 相同 方 盖 
的 正 态 变 基 的 均值 基 千 相等 的 一 种 统计 方法 , 在 所 考虑 的 因子 仅 有 一 个 的 场合 ， 称 为 草 
因子 方差 分 析 ， 

为 检验 假设 万 "， 需 要 对 每 一 变量 抽 娶 样本. 这 些 样本 可 以 通过 试验 或 某 种 观察 莫 
得 ,各 样本 间 还 是 相互 独立 的 为 方便 起 见 ， 本 章 对 样本 及 其 观察 值 都 用 同一 符号 ， 加 
下 标 表 示 ， 其 含义 可 从 上 下 文理 解 . 设 第 ; 个 变量 对 应 容量 为 wm， 的 样本 yy …，》 
(全 1, 2, ,rr)， 

在 4,; 水 平 下 获得 的 四 与 卢 不 会 总 是 一 致 的 ,如 例 5.1 中 教学 方法 4 下 学 生 的 成 
绩 也 不 完全 相同 , 记 


人 一 基站 
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称 ex 为 随机 误 盖 ， 从 而 有 
荐 三 丰 十 6 
称 上 式 为 吕 的 数 手 结构 式 ， 即 来 自 均值 为 cs 的 变量 观察 值 y, 可 看 成 是 由 其 均值 w; 与 随 
机 误差 s 秋 加 而 产生 的 在 假定 A, 的 指标 服从 Ni，o2) 分 布 时 ,， 则 有 。 ~ N(0， 
2 
o) ， 
综 上 ， 有 单 因 于 方差 分 析 的 统计 模型 : 假定 
和 荐 二 记 十 8 
sj 一 N(0,o) 且 相互 独立 ，， 
检验 假设 Ho:pi= pa= 人 = 和 饭 ， 
为 了 能 更 仔细 地 描述 数 握 ， 常 在 方差 分 析 模 型 中 引信 一 般 平均 与 效应 的 概念 . 称 诸 
六 的 加 权 平 均 


人 12 《 关 ) 


为 一 般 平均 ， 其中” = > mi 称 
如 二 站 一 有 
为 因子 A 第 ; 水 平 的 主 效应 ， 也 简称 为 A, 的 效应 .容易 看 出 ， 效应 间 有 如 下 关系 式 ; 


在 土 述 记号 下 ， 有 
让 二 下 二 全 
这 表明 第 ; 个 总 体 的 均值 是 一 般 平均 与 其 效应 的 释 加 . 此 时 单 因子 方差 分 析 的 统计 模型 
可 改写 成 


神 三 天 十 嫩 二 人， 
了 二 0， (1 二 1 2， 7 六 二 1 2 
1 


8 一 Nt0,c2) 旦 相互 独立 ， 
它 由 数据 结构 式 、 关 于 效应 的 约束 条 件 及 关于 误差 的 假定 三 部 分 组 成 . 在 上 述 模型 下 ， 
押 要 检验 的 假设 可 改写 成 了 oal=a 二 -…=Q = 
5,.2.1.2 检验 方法 
在 单 因 拖 方 益 分 板 中 ,通常 将 所 得 数据 列 成 如 表 5.2 所 示 的 形式 . 
表 35.2 中 , 各 风 是 有 差异 的 ， 我 们 从 考查 数据 间 的 差异 着 手 来 给 出 检验 方法 ， 
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造成 各 的 间 差 异 的 原因 可 能 有 两 个 ; 一 个 可 能 是 假设 瑟 o 不 真 ， 即 各 水 平 下 变 基 鸭 
值 5 人 或 水 平 效应 si) 不 同 ， 国 此 从 各 变量 获得 的 样本 观测 信也 有 差异 ; 另 一 可 能 是 如 
为 真 ， 莽 异 是 由 荫 机 误差 引起 的 . 








圳 5.2 单 因子 方 状 分 析 数 据 结构 家 
-一 
因子 水 平 试验 数据 
和 ?01 出 坟 本 23mi 
4 32 32 人 2ma 
生 - Jr] 32 上 ?mm 





为 使 这 些 差 异 的 大 小 能 定量 表示 出 来 ， 先 引入 如 下 者 干 记号 . 


把 A 水 平 下 试验 数据 和 记 为 %，~ 为 ， 其 平均 值 记 为 元 = 荆 %-， 由 罗 的 数据 
结构 式 可 知 ，y. 基 有 如 下 结构 式 ， 


划 . 三 Ai 十 车 
2 
把 所 有 数据 之 和 记 为 "= 2w， 其 平均 值 记 为 了 = 一 ，y 具有 如 下 结构 式 ; 
了 三 产 十 5， 
其 中 = 区 2 由 于 


好 一 克 = 《一 及 -十 《区 ,一 习 ) 
其 中 号 一 玉 , 称 为 组 内 偏差 ， 仅 反映 随机 误差 ， 
第 一 下 ,= ( 二 的) 一 (十 于) 三 一 吾 .， 
而 东 . -也 称 为 组 间 偏 差 ， 除了 反映 随机 误差 外 ,还 反映 了 第 ; 个 水 平 效应 : 
机 .一 下 定 【由 十 司 .J 一 (十 ) 一 二 十 下 .一 不 . 


各 为 同 总 的 差异 大 小 可 用 总 偏差 平方 和 SST 表示 : 
SST = 果 2 - 玉 ， 


由 随机 误差 引起 的 数据 间 的 差异 可 以 用 组 内 偏差 平方 和 表示 , 由 于 组 内 偏差 仅 反映 
荫 机 误差 ， 故 也 把 组 内 偏差 平方 和 称 为 误差 念 差 平 方 和 ， 记 为 SSE : 


SSFE = 了 >， 2 ( 芒 一 歼 . 六 . 


fm jam1 
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由 于 组 间 偏 差 除 了 反映 随机 误差 外 , 还 反映 了 效应 间 的 差异 故 由 效应 不 同 引起 的 
数据 差异 可 用 组 间 偏 差 平方 和 表示 ,也 称 为 因子 4 的 仿 差 平方 和 ， 记 为 SS4 ， 
SSA4 = 2 ma 元 一 也 六. 
这 里 ,每 一 项 荫 上 m; 是 因为 第 ; 水 平 有 mm, 个 实验 数据 . 


定理 5.1 (平方 和 分 解 定理 1) SST= SS4 + SSE . 
事实 上 


SST = 号 2ov- 了 ”= 号 ov - 甩 . 十 责 , 一 


了 = 于 到 
= > 3 一 史 . 关 二 2 > -2+2y， wy 一 丈 .)( 天 ,一 下 
有 4 i=1 js=1 
-= SSE + SSA， 
由 于 2 (yy - 丈 ) = 0 故 上 述 第 三 项 为 0 


由 模型 天 ) 可知 各 sj 相互 独 芯 ， 且 6 一 NI0， 0 ) 《ti 二 1 了 了 = |， 2，…'， 
了 oj)， 故 





(= 12,…r)， 
EXN|0， 一 } 
由 于 
2 - 区 ,) := (sy 一下. 关 一 (mr 1 
又 由 好 分 布 的 可 加 人 性 可 知 


琛 -号 [20ov- 元 人 |-~ 旭 [六 (mm -Dj= zone- 六 


证] 


由 ;分 布 的 性 质 知 





即 
了 (SSE)J= (za 一 了 )o2， 
由 于 
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SS4 = 六 m( -下 = Dri(ait 可 一 下 
一 > mi 十 六 mn 一 +2y maps 人 本 一 下) 
fa 二 二 1 二 二 
叉 由 下 (人 让.)=0，R(E)=0， 故 
下 史 天 隐 2 
E(SS4) = mei + 2mE(E) -并 { 本 ) = 2 meit 2 中 一 


Le] 


一 =- 补 ne +{r 一 1)e2. 
从 上 面 的 分 析 过 程 中 可 得 如 下 定理 ， 


定理 5.2 (平方 和 期 望 定 理 ) 在 一 个 因素 的 方差 分 析 模 型 中 , 有 
瑟 (SSE)=( 一 让)o7 


刁 (19S9A) = 2 nc: 十 (r 一 1e ， 


定理 5.3 ( 误 关 信 差 平方 和 分 布 定理 ) 在 一 个 因素 的 方差 分 析 模 型 中 ， 有 
2 
一 入 (ay). 
定理 5,4 ( 因 季 A 的 信 关 平方 和 分 布 写 理 在 一 个 因素 的 方差 分 析 模 名 中 ， 当 假 
设 五 , 为 真 时 ， 有 


SsA 
r-1 


了 
二 上 ， 








| 
呈 兴 一 2(r- 1 


SA Ar 一 1 
S54 与 SSE 相互 独立 ， 且 上 = SSEAT 站 fr 一 1, 一 )， 


定理 5.2，5.3，5.4 的 证 明 参 见 文献 [2] 

因此 可 采用 统计 最 下 来 检验 假设 五 当 互 , 不 真 时 ， 分 子 的 均值 要 比分 母 的 均值 
大 ,因而 取 如 下 拒绝 域 

机 = | Fe 
是 合理 的 , 对 给 定 的 显著 性 水 平 ce 应 满足 
忆 { 开 补 = 
当 取 c= 本 .Cr-1a-r) 时 , 人 征 有 PiFzcl =a， 故 得 拒绝 域 为 
环 =1F 字 Fr 一 nz- 站 

通常 把 以 上 求 统计 量 的 计算 列 成 一 张 表格 ， 称 为 方差 分 析 囊 ( 见 囊 5.3)， 相 应 的 和 

分 布 中 的 自由 度 也 列 于 甫 中 , 偏 关 平 方 和 与 自由 度 的 比 称 为 均 方 和 ， 
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表 5.3 单 因子 方 胡 分 析 表 










均 广 和 


YY 三 SSE7 六 












综 上 ， 作 单 因子 方差 分 析 的 步 双 如 下 . 
由 依次 列 出 第 个 变量 (= 1 2 …,r) 对 应 容量 为 mi; 的 样本 yi …，3im， 确 定 试 


验 中 因子 的 水 平 数 ~、 各 水 平 下 的 样本 容量 m，、 数 据 总 数 ，= 》 "wm,， 同时 明确 显著 性 
水 平 w， 


加 计算 各 水 平 下 数据 和 = 于 3 (1,2,…，r) 及 总 和 》 = > ,计算 各 
| il 21 


了 


ri r ,多 
数据 5 平方 之 和 > >) 六， 在 此 基础 上 计算 六 于 ， 交 、， 


让 


鲜 利用 步 豫 外 中 的 结果 ， 计 算 SST，8SS4 和 SSE.， 其 中 


r 。 陋 2 
SST = 定 05 -下 = 区 -人 
-2 2 
SS4 = 忆 mr( 有 殉 = 2 汪 - 二 
SoF 一 99 了 一 094 ， 
电 确定 自由 度 六 = -1 和 和 户 =2a-r， 计算 各 类 均 方 和 VA = SS4/ 广 和 人 三 = 
SSE7 廊 ， 求 出 检验 用 统计 值 FF= YA/Tr， 即 得 到 了 单 因 子 方差 分 析 玫 中 的 各 项 内 容 ， 
全 求 出 临界 值 Fi 。( 六, 记 )， 确定 拒绝 域 机 = FF3PF (太太 儿 ,车 EE 丈 , 则 
作出 拒绝 厌 假 设 Hi 的 结论 ; 否则 ， 接 受 媚 ， 
或 者 由 基 小 显著 性 概率 作出 检验 决策 , 当 < a 时 拒绝 原 假 设 ， 
对 于 例 5.1， 所 谓 方 凑 分 析 ， 即 检验 如 下 假设 ， Hu:oi = 请 = io， 其 中 心 (i=1.2.3) 是 
第 :个 变量 的 均值 . 按照 上 述 步 骏 , 具体 的 检验 过 程 可 由 如 下 MATLAB 指令 集 完成 . 
MATLAB 数据 处 理 (1) 
如】 ea 
Y= [73，66,89, 82,，43,80,53， 88，78,91,，76, 85,，94, 680, 96,68， 379,，71,， 71, 87，68 59 ， 
76,，80]; 
工 = 了 ; 


mL=7:m2=8BIa3=S 外 各 总 体 的 样本 容量 





累 值 


139 。， 





nn=aLlt+a2+R3; 

alLPha =0.05; 

呀 _= suafyf1:al)); 与 第 一 种 教学 方法 下 学 生 的 成 绩 之 和 

12_= suafy((tal+y1l):(al+a2))); 名 条 二 种 教学 方法 下 学 生 的 成 绩 之 和 
Y3 =sumtyf(al+om2+1):p))7 多 第 三 种 载 学 方法 下 学 生 的 成 绩 之 和 
Y_ = Sumnfy); 当 各 学 生成 绩 之 和 

他 = SuifY.2)7 和 各 学 生成 绩 平方 之 和 

=YL “2Aml + Y2 -27a2+ 93 “27a3i 

SST = W- 了 -2/n; $ 总 的 偏差 平方 和 

SS& =g- 了 “2/ni 第 因 于 的 仿 差 平方 和 

SSE = SST - SSN 名 误差 平方 和 

gl=SSUWIE- 1) 多 偏 差 均 方 和 

经 =SSEA(n- Fr) 要 误 善 均 方 和 

PEST = g1/7 失 外 由 样本 计算 出 的 下 售 

FLJ = finv(1 - alIphajz -1n-z); 和 占用 MATILAB 统计 工具 箱 中 finv 函数 求 得 临 


PP= 二 -FEcdt(FEST TY 一 1 ~ 工 ); 
计 TEST-> FLJ 
= 并 ; 
全 8 各 
he=br 
nd 
alpha，h，p，FEST，Z7LI 
上 述 指令 的 运行 绪 果 是 ， 
忆 ]Pha = 
0.0500 
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计算 结果 表明 , 在 0.05 显著 性 水 平 下 , h= 1、p<alpha 皂 绝 原 假 设 ， 即 认为 三 种 教 
学 方法 有 显著 性 差异 ， 


5.2.2 效 庶 与 误差 方差 的 估计 
5.2.3,1 效应 与 误 将 方 效 的 点 估计 


由 模型 ( * ) 知 各 光 相 互 独立 ,是 ~ N(z + ay o2)， 因 而 可 用 极 大 似 然 法 求 出 各 
效应 与 2 的 估计 . 不 难 证 明 如 下 定理 ， 


定理 5.5 (效应 与 误 总 方 总 的 点 估计 定理 


o 的 无 偏 估计 是 0? 一 人， 
证 明 参 见 文献 [1]. 
5.2.2,2 山 的 置信 水 平 为 1- ea 的 置信 区 间 

利用 框 轴 基 法 ， 可 以 构造 zz; 的 置信 区 间 . 





从 ie 的 贞 信 计 . 出 发 ， 由 于 前 已 证 明 一 N| co， 所 




















SS )， 这 里 
万 。-， 且 ” 与 59E 名 立国 而 可 以 析 洁 _ 个 服从 ， 于 的 械 全 
和 区. 卫 肌 
aa 
[有 _. 
下 二 SSE 一 人 区 让， 
2 
“本 
产 


因而 从 
P{|s|sa-sCP)}=1-。 
可 得 上 的 加 信 水 平 为 1~ a 的 壮 信 区 间 为 


由 下 
到 5 访 贡 ， 和 许 |， 
7 
这 里 c = 廊 ， 





了 1 


【 例 $.2] 求 例 .5.1 中 每 一 种 教学 方法 下 学 生平 均 英 证 成 绩 的 点 估计 和 闭 信 水 平 为 
0.95 的 息 信 区 条. 

斤 照 本 小 节 的 定理 和 结论， 利用 MATLAB 进行 计算 ， 具 体 过 程 如 下 . 
MATLAB 数据 处 理 (2) 
心 1 SI 
alpha = 曲 .05; 
ml=7 了 ;i 32= 忆 ;到 3 下 ; 
防 地 mL 十 巧 2 十 盏 ; 
了 3; 
上 了 = 王 一 工 ; 
中 _ = 496;1 负 引 用 MATLAB 数据 处 理 {(1) 中 结果 , 下 同 
12_ = 688; 
23 = 659; 
MD1 = YI_/als 第 一 种 教学 方法 下 学 生平 均 英 语 成 绩 的 点 估计 
MU2 = Y2_/a2 笑 第 二 种 教学 方法 下 学 生平 均 英 语 成 绩 的 点 估计 
MU3 = 1_/ma3 才 第 三 种 教学 方法 下 学 生平 均 英 语 成 绩 的 直人 居 计 
了 =tinv(i - alphba/2， 3 ); 
SSE =2.3404e+ 003; 引 用 MATLARB 数据 处 理 (1) 中 结果 
SIGA = SSrt(SSEA Un -z));i 旬 英 语 成 绩 轩 准 差 的 无 恼 收 计 
a= [MOL~ 了 +SIGHRAaqrt(al)，MUOL + 了 + SIGMRMsgrt(al)]; 
b = [MD2 -~-Tx IGM sgrt(ma2)，M02 + 了 x SITGMR/sgrt(o2)]; 
es= [03 ~-Tx SITGMR/ sdrt(a3)，M03 + 了 中 + SIGMAAsqrt(m3)]; 
a，D，6 负 三 种 教学 方法 下 平均 英语 成 绩 的 置信 区 间 
上 述 指令 的 运行 结果 是 ; 
MD1 = 

70.8571 
MU2 = 

86 
MU03 = 

55,1111 


62 .5592 79 .1551 
b = 
38.23860 93.9620 
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ec = 
和 7 .7930 62.4292 
计算 结果 表明 ， 三 种 教学 方法 下 学 生 的 平均 英语 成 绩 分 别 为 70.8571，86， 
55,1111; 5%% 的 转 信 区 和 间 分 别 为 [62.5592，79.1531 3，[ 78.2380， 的 .7620 ]， 
[47.7930，62.42921] 


5.2.3 重复 数 相同 的 方差 分 析 


当 在 因子 4 的 每 一 水 平 下 重复 试验 次 数 相同 ， 即 当 mi = my = … = mm 时 ， 上 述 一 
些 表 达 式 可 以 简化 . 若 记 每 一 水 平 下 重复 次 数 为 总 ， 则 


效应 约束 条 件 可 简化 为 > ay = 0 ; 


2 
SSA 的 计算 公式 可 简化 为 SSA = 二 2 史 ~ 呈 : 
wx 的 置信 水 平 为 1- “ 的 置信 区 间 可 改 为 


由 
二 世 加 在 
你 4 外 大) 下) 大 ， 


其 他 一 切 都 不 变 . 对 于 重复 数 相同 的 单 因子 方差 分 析 ，MATELAB 提供 了 命令 函数 anoval 
来 处 理 单 因素 方差 分 析 的 问题 . 命令 anoval 主要 是 比较 多 组 数据 的 均值 ， 然 后 返回 这 些 
均值 相等 的 概率 ， 从 而 判断 这 一 因素 是 谷 对 试验 指标 有 显著 影响 , 调用 方法 

[PP，anovatab，Stats] = anovalfX，groupy “displayopt”) 
其 中 ,输入 参数 X 表示 > 变 基 的 mm 个 样本 观测 值 的 xyr 和 矩阵. group 是 与 筷 对 应 的 表 
示 > 变量 名 字 或 意义 字符 串 数组 ,通常 缺 省 使 用 . 引用 参数 displayopt 有 两 个 状态 on 和 
off， 分 别 表示 显示 和 隐藏 方差 分 析 表 图 形 和 box 图 . 输出 参数 p 为 X 的 各 列 均值 相等 的 
最 小 显著 性 娄 率 ，p 的 值 越 小 , 则 岳峰 诛 假 设 ， 表示 这 个 因素 对 随机 变量 的 影响 是 显著 
的 ，anovatab 和 stats 分 别 返 回 方差 分 析 表 和 一 个 附加 的 统计 数据 结构 ， 可 以 缺 省 . 

【 例 $.3]】 某 钢 厂 检查 一 月 上 名 的 五 天 中 生产 的 钢锭 质量 ,结果 见 表 5.4( 单 位 ， 
kg) . 

表 5.4 


日 其 质 最 
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试 检 验 不 同日 期 生产 的 钢锭 有 无 显著 差异 ? {a=0.05) 

分 析 我们 把 不 同日 期 生产 的 钢锭 质量 分 别 独 做 一 个 变量 , 检验 它们 的 平均 质量 是 
香 有 了 明显 差异 相当 于 要 比较 五 个 变量 的 均值 是 否 一 致 , 假定 ; 全 五 个 变量 均 服 从 正 态 分 
布 ; @ 每 一 变量 的 方 盖 相 同 ; 轩 从 五 个 变量 抽取 的 样本 相互 独立 . 采用 方差 分 析 法 来 检 
验 不 同日 期 生产 的 钢锭 质量 是 否 有 明显 莽 异 ， 

设 第 i 个 变量 的 均值 为 w,， 假设 不 同日 期 生产 的 钢锭 平均 质量 无 显著 差异 , 那么 就 
要 检验 如 下 假设 ， 

瑟 0A 一 Ap 一 AAS 

具体 见 以 下 解 题 过 程 . 

MATLAB 数据 处 理 

ClLeam 

Ji = 上 5500，5800，5740，5710]】 ; 

3M2 = [5440，5680，5240，560017 7 

和 = [5400，5410，5430，540 和 0] 

4 = [564D，5700，5660，570D]“; 

5 = [5640，59700，5610，5400]“: 

X= [AL 2，a3， 了，15]; 

[pp，anowatab，stats] = anovali(X 【1] “on7) 


上 述 指令 的 运行 结 采 见 图 5.1 及 : 


p = 
0D.0220 

anbVyatab = 
“Souree' “8987 “dd 7MS7 7/ “Prob >>F- 
“Columns′ [2276801] [ 4] [ 56920] [3.9496] [0.0220] 
“Brror [216175] [15] 11.4412e+004] [] [ 
“Total7 f{443855] [19] [ [] [] 

中 atS = 


gmnames: 【5xl char] 
n:， [44444] 
Bouxce: anoval' 
means: [5.6875e+ 003 5490 5410 5675 5580 ] 
与 : 15 
8S: 120.0486 
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图 5.1 五 天 生产 钢锭 质量 的 box 


结果 表明 : 钙 返 回 值 p=0.0220<0.05， 认 为 不 同日 期 生产 的 钢锭 平均 质量 有 显著 
差异 . 加 方 莹 分 析 表 (fanovatab) 中 有 6 列 , 第 1 列 声明 人 X 中 可 变化 性 的 来 源 ; 第 2 列 显 
示 平 方 和 ; 第 3 列 显 示 与 等 一 种 可 变性 有 关 的 自由 度 , 第 4 列 显示 第 2 列 数 据 与 第 3 列 
数据 的 比值 ; 第 5 列 显 示 下 统计 量 数值 ， 是 第 4 列 数据 的 比值 ; 第 6 列 检验 的 最 小 显著 
性 概率 ， 部 第 一 输出 参数 值 , 锋 stats 返回 的 附加 统计 数据 结构 中 means 一 行 给 出 了 各 日 
生产 的 钢锭 平均 质量 的 点 估计 ,四 从 方 莽 分 析 bex 图 容易 戎 出 不 同日 期 生产 的 钢锭 平均 
质量 之 闻 的 直观 差 掉 . 


s.2.4 多 重 比较 


若 检验 结果 拒绝 了 百 ， 进 一 步 分 析 哪 些 水 平 之 间 的 差异 是 显著 的 、 哪 些 水 平 对 实 
验 结果 的 影响 最 大 、 哪 些 水 平 次 之 ,这 在 实际 应 用 中 往往 是 很 重要 的 ， 此 项 工作 通常 称 
为 均值 的 多 重 比较 ， 

对 任意 两 个 水 平均 值 之 间 有 无 显著 差异 进行 多 重 比较 邑 辣 时 检验 以 下 | "个 假设 

=， 
检验 的 统计 量 为 
一 《 玉 . 一 术 .) ， 
二 二 + 


1 





其 中 号 = 汪 二 ， 对 于 天 的 检验 水 平 sw， 当 | :| > zi-_s (na ->) 时 拒绝 专 ， 或 等 从 地， 





1 和 5 。 


当 转 信和 订 为 100(1 一 o) 入 的 大 一 和 置信 区 间 


-_ - 。 ,| 二 + 工 
4 一 《 珊 . 一 玉 -二 有 -下 (太一 六 ) 辣 十 ma 


不 包含 0 时 拒 忽 苹 ， 从 而 拒绝 五 ，. 
由 于 多 重 迪 较 所 进行 的 一 系列 检验 均 构 成 对 于 假设 的 检验 ， 因 此 要 使 得 所 有 检验 总 
的 犯 第 一 类 错误 的 概率 不 超过 给 定 的 "， 就 需要 选取 适当 的 %. 检验 Fu 和 检验 HE 的 
交 _0_ 殴 等 价 , 当 所 有 的 牙 成 立时 ，B 必 成 立 ， 反 之 亦 然 ， 以 Ay 记 HH 的 拒绝 域 
则 
P( 拒 绝 再 | 了) = P( 亩 少 有 一 个 4 发生 | 瑟 ) 
=P(4Ap+AN+…+A -1| 0) 
甩 > P(4i 1 0) 
1 二 ij 
所 科 P(4)1 贰 ) < 
1 2 
要 使 总 的 犯 第 一 类 错误 的 概率 P( 拒 绝 再 | 下 )<ce， 只 要 取 -al 
天 过 | “| 个 两 均 值 比较 , 检验 假设 Bi 的 优点 是 它 不 仅 可 知 ki, pa …,px 有 关 别 
而 且 知 道 差别 在 鄂 . 但 此 方法 计算 量 大 ， 周 时 由 于 要 保证 总 的 检验 水 平 ,， xz“ 取得 比较 小 ， 
从 而 一 般 说 来 ， 比 起 直接 应 用 方差 分 析 增 大 了 犯 第 二 类 错误 的 概率 ， 这 意味 着 可 能 会 出 
更 这 样 的 情形 : 用 顾 检验 结果 是 显著 的 ， 但 用 两 两 比较 却 没 有 任何 两 个 水 平 有 显著 莹 
异 . 下 而 的 LSD 方法 在 某 种 程度 上 可 以 弥补 这 个 缺陷 ， 但 真实 水 平 是 近似 的 . 
LSD 方法 是 由 及 .A,Fisher 提出 ， 又 经 过 后 人 修正 的 ,方法 如 下 ， 
他 给 定 检验 水 平 ,用 方差 分 析 法 检验 五 ,; 
四 如 果 拒 绝 妞 ,， 则 继续 比较 水 平 之 疝 的 差异 ， 否 则 停止; 
二 对 于 水 平 记 放生 与 记 的 最 小 显著 差异 为 


| 1 1 
LSD5 一 与- 有 一 7) 中 二 + ; 


图 当 | 元 .一 记 | 关 LSDy 时 ， 认 为 上 与 不 同 ， 

【 例 5,4】 用 多 重 比 较 的 方法 确定 例 $,1 中 哪些 水 平 之 亲 的 差异 是 显著 的 ， 癌 时 确 
定 使 学 生 的 平均 英语 成 绩 最 高 的 那 种 教学 方法 ， 

分 析 例 5.1 中 , 我 们 己 经 得 出 三 种 教学 方法 有 显著 性 差异 ， 即 教学 方法 这 一 因子 
对 学 生 的 英语 成 绩 是 有 显著 影响 的 , 进一步 分 析 到 底 娜 两 种 教学 方法 对 学 生 的 成 绩 影响 
老 昂 显著 ， 就 需要 对 三 个 变量 进行 多 重 比较 了 . 多 重 比较 的 方法 很 多 ,按照 上 而 介绍 的 
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LSD 方法 ， 利 用 MATLAB 计算 如 下 . 
MATLAB 数据 处 理 (3) 
CeaT 
alpha =0.05; 
al=7i 达 =8;m3=9i 
了 =alL+M2+B3i 
工 =3; 
七 = 寺 inv(l -alpha/2，n-L); 
SSE =2,3406e + 003; 当 引 用 MATLAB 数据 处 理 (1) 中 结果 
LSD12 = 十 + SGrt(SSE/ (nm -上 )) * SGgrt(1/al + 17a2); 
LSD13 = 七 * SGrt(SSR/(n-T))* SGdrtflAml+iAa3); 
LSD23 = 七 x 9qrt(SSEACn ~Y))x SGrtt1Aan2+1/n3); 
MU1 =70.8571; 外 引用 MATLAB 数 据 处 理 {2) 中 结果 ,下 同 
NM02 = 86; 
MD3 = 55.1lll; 
让 abs(NMD1 - NO2) > =IT5D12 
hfl) =1; 
人 1S 香 
ht) =; 
end 
站 abs(NMD1 ~- MU3) > = LSD13 
hf2) =1; 
站 1 8 各 
hf2) = 0; 
end 
让 abs(N02 - NM03) > = LSD23 
ht3) = 1; 
忆 】S 各 
hf(3) =0; 
end 
h 韦 结 果 , 依 次 显示 第 1 和 2，1 和 3，2 和 3 种 方法 下 学 生平 均 成 绩 差 异 的 显著 性 
上 述 指 令 的 运行 缚 果 是 ， 
h = 








*。J47 。 


计算 结果 表明 , 三 种 教学 方法 对 学 生 英 语 平均 成 绩 的 影响 有 显著 差异 ; 第 二 种 教学 
方法 佑 学 生 的 英语 平均 成 绩 最 高 . 
5.2.5 方 盖 齐 性 检验 

在 单 因子 方差 分 析 中 ,假定 > 个 不 同 水 平 下 的 响应 变量 服从 N{piyei (=12， 
…,r)， 并 要 求 这 > 个 正 态 变量 的 方差 相等 . 这 一 要 求 简称 为 方差 齐 性 . 一 般 而 言 ， 实 际 
应 用 中 在 进行 方差 分 析 之 前 ， 有 两 项 预备 性 分 析 是 不 可 或 缺 的 . 一 是 这 r 个 变量 的 正 态 
性 检验 ， 检 验方 法 在 第 4 章 已 作 介绍 ; 另 一 是 这 r 个 正太 变量 的 方差 齐 性 检验 ， 本 小 节 
扼要 介绍 这 一 问题 的 检验 方法 ， 

方差 齐 性 检验 的 假设 为 

再 一 Re 不 全 相等 ， 

备 择 假设 往往 略 去 不 写 , 

方差 齐 性 通常 采用 Bartlett 检验 方法 ， 下 而 简单 介绍 Barlett 检验 的 基本 地 路 和 从 


验 统计 量 的 构造 . 
设 第 个 变量 抽取 了 容量 为 了 ; 的 样本 yy, 7， 四 Ji 其 样本 方 莽 为 


2 _ TS QQ 
一 痊 ; = 12 (为 一 其. 二 了 (= 工 2.…7r)， 


其 中 Qi = Yo - 隐 )， 扩 = mm -1 分别 为 该 变量 的 样本 偏差 平方 和 与 自由 度 . 子 是 ， 
随机 误差 均 方 和 

MSSE = ASSE = 二 2 Q =- 守 交 
荐 > 个 变量 样本 方差 (= ,2 .的 加 权 算 术 平 娄 2 


CGMSSE = [TITcax 仿 
ii 


是 > 个 变 量 样本 方差 纯 (= 1,2,…,>) 的 几何 平均 数 ， 产 = 六 


由 子 全 有 GMSSE 扫 MSSE, 并 且 等 号 成 立 的 充分 必要 条 件 是 叶 = 呈 = …= 52， 所 
以 ， 诸 样本 方差 si = 1,2,…,r) 间 的 差异 越 大 ，GMSSE 和 MSSE 的 差异 越 大 换 名 
话说 ， 当 瓦 。 为 真 时 ， 比 值 MSSR/7GMSSE 接近 于 1. 反之， 比值 MSSE7GMSSE 较 大 
时 ， 瑟 s 值得 怀 嵌 . 这 个 结论 对 In(MSSE/GMSSE ) 也 成 立 , 于 是 ，B 的 拒绝 域 应 有 如 
下 形式 ， 
刺 =1n(MSSE/AGMSSE )2d， 
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Bartlett 证 明了 ,在 大 样本 条 件 下 


B= 自 (hn MSSE -jn GMSSE) 二 X2(r -1)， 


其 ec =1+3CLT| 袜 大 - 天. 亚 伏 ,一季 情 况 下 c>1. 
通常 ， 当 各 不 变量 的 并 本 窒 量 mi 安 (1 二,2,…, 站 时 ,也 可 以 用 统计 量 引 作为 
Bi 的 检验 统计 量 , 在 显著 性 水 平 下 , 拒绝 域 为 
三 =18 之 妇 -(r 一 1 上 
实际 计算 时 ,检验 统 计量 采用 
B = 二 (Ala(SSE/ 户 ) - 站 


于 本 


的 形式 更 方便 一 些 

【 例 5.5] 对 例 5,1 中 三 种 教学 方法 下 学 生 的 英语 成 绩 这 三 个 变量 作 方 差 齐 性 检 
验 . 

分 析 假设 Hu:oi= oz= o， 即 三 个 变量 的 方差 相等 , 按照 上 述 结论 ,分别 求 得 例 
5.1 中 检验 统计 量 3 的 值 和 本 题 的 拒绝 域 ， 经 过 比较 得 出 结论 . 

MATLAB 数据 处 理 (4) 

如 全 8 

了 Y= [73, 66,89, 82, 43, 80, 63, 88, 78, 91, 96,85, 94, 80, 96, 68 ,79, 71, 71, 87, 68, 59， 
76,80]; 

alpha 二 曲 .05; 

到 1 = 了 ;Im2= 占 ;m=9; 

T=3; 

SSE = 2.3404e+ 003; #% 引用 MATLAEB 数 据 处 理 (1) 中 结果 

二 吉 主 十 对 2 十 男子 ; 

上 BE = 站 -了 工 ; 

cG=tlA(al-1+1A(m2-1)+IA(G3 一 1) -ITAEE)A3SX(r-T))+1i 

Sti=var(y(1:al)); s2 = varfyf(att+1):， (al+a2))); s3= vacfyftna-a3+1); 
)); 

chi2HST = 《5 * 1]09(SSE/Z) - (al - 业 ] # 10g(s1) - (a2 - 1) 109g(82) - 【ma3 - 十) # 
109(83) )/e; 

JIUZ = chi2inv(l -alphaz 一 1); 

P=1-echi2cdftchi28ST rz 一 1); 

证 chi2EST>TJZ 


了 


h=1; 

在 工 S 二 

h=nbi 

end 

1LPha， 妨 ，P，chi2EKST，Ly2 

上 述 指令 的 运行 结果 是 : 

aLPhba 

0.0500 

h = 

0 
p = 
0,1330 
chi2EST = 
了 .0348 
LJZ = 
5.9915 

计算 结果 表明 , 在 0.05 显著 性 水 平 下 ，h= 0、p>aipla 不 能 拒绝 原 假 设 ， 即 认为 三 
种 教学 方法 下 学 生 的 英语 成 绩 这 三 个 变量 方差 相等 ， 

下 面 ， 对 单 因子 方差 分 析 的 应 用 步 观 小 结 如 下 ， 

钙 对 各 个 变量 (不 同 的 因子 水 平 ) 的 正 态 性 进行 检验 { 例 5.1 中 忽略 了 这 一 步 ). 

四 对 各 个 变量 的 方 闺 齐 性 进行 检验 (如 例 5.1 中 MATLAB 数据 处 理 (4))， 

图 当 各 个 变量 的 正 态 性 和 方差 齐 性 得 到 验证 拓 ， 进 行 方差 分 析 { 如 倒 5.1 中 MAT- 
LAB 数据 处 理 (1)),， 在 各 个 变量 的 正 态 性 和 方差 齐 性 没有 得 到 验证 的 情况 下 ， 严 格 地 说 
不 宜 再 作 方差 分 析 . 但 基 ， 有 关 和 研究 表 明 方 差分 析 的 F 统计 量 有 较 好 的 稳健 性 ， 即 使 正 
态 性 和 方 壮 齐 性 没有 得 到 验证 也 可 以 进行 粗略 的 方 闭 分 析 以 供 参 考 ， 

人 @ 在 方差 分 析 拒 绝 各 个 变量 均值 一 致 的 原 假 设 后 ， 应 进行 多 和 蛋 比较 (如 例 5,1 中 
MATLAB 数据 处 理 (3))， 

@@ 无 论 方差 分 析 是 否 拒绝 原 假 设 ， 都 应 对 每 个 变量 的 均值 作出 估计 (如 例 5.1 中 
MATTLAB 数据 处 理 (2) )， 


5$.3 双 因 子 方差 分 析 


在 许多 实际 问题 中 ， 常 常 需要 同时 研究 儿 个 闵 子 对 实验 指标 的 影响 作用 , 如 在 例 
5.1 中 , 学 生 的 英语 成 绩 不 仅 与 教学 方法 有 关 ， 也 与 其 自身 的 努力 程度 等 因素 有 关系 . 
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为 使 讨论 相对 直观 一 些 ， 绪 合 下 面 的 例题 阐述 无 交互 作用 的 双 因 子 方差 分 析 方法 与 有 交 
互 作用 的 双 因 子 方差 分 析 方 法 ， 

【 例 5.6】 表 5.5 中 数据 是 在 4 个 地 区 种 砷 的 3 种 松树 的 直径 (单位 ;em)， 

表 5,5 
















了 二 站 1 守 | 好 多 让 1 培 | 阅 对 双 加 扫 | 本 区 加 守 


2 


培 地 站 妆 妇 | 枯 1 23 22 雹 


试 河 (1) 是 否 有 某 种 树 特 别 适 合 在 某 地 区 种 植 ? 
(2) 若 (1) 是 否定 的 ， 各 树种 有 无 差别 9 志 种 树 最 好 ? 哪个 地 区 最 适合 松树 生长 ? 


5.3.1 无 交互 作用 的 双 因 子 方差 分 析 


设 4 与 日 是 对 试验 结果 有 影响 的 两 个 因子 ， 相 互 独立 . 如 例 $,6 中 , 树种 和 地 区 便 
是 影响 松树 生长 的 两 个 因子 ， 这 里 我 们 以 松树 的 直径 大 小 作为 判断 松树 生长 优良 的 实验 
指标 , 现在 只 是 不 知道 这 两 个 因子 之 间 是 否 存在 交互 作用 ， 即 是 否 存 在 某 个 地 区 最 适合 
某 种 松树 生长 . 这 种 情况 下 ,应 首先 按照 有 交互 作用 的 方 莽 分 析 方法 去 检验 因子 之 间 交 
互 作用 的 存在 性 , 如 果 根 据 生 产 实际 经 验 或 有 关 专 业 知识 ， 知 道 它 们 之 闻 不 存在 交互 作 
用 ,或 者 它们 的 交 孔 作用 不 显著 ,可 以 忽略 不 计 ， 

首先 讨论 因子 之 河 无 交互 作用 的 情形 . 

仅仅 为 分 析 因 子 4 与 因子 召 各 自 对 实验 指标 的 影响 是 否 显 著 而 设计 的 试验 可 以 是 
无 重复 试验 ， 即 各 种 水 平 组 合 只 进行 一 次 试验 ， 各 获得 一 个 试验 数据 就 够 了 . 因子 4 有 
r 个 水 平 ,因子 召 有 * 个 水 平 , 现 对 因子 A 与 的 不 同 水 平 的 每 种 组 合 下 进行 试验 或 拍 
样 ,共有 ~ xs 个 处 理 ， 得 数据 结构 见 表 5.6， 
















1 雪 志 22213115 2 记 ]4 了 




















甫 5 必 6 这 交互 作用 的 双 因 子 方 妾 分 析 数 据 结构 束 
因子 吾 
叶 
到 3 ”32 3a， 
丰 : 3 局 了 
> 2 - y 





假设 % 相 互 独立 , 且 思 一 NO ，o2)， 则 
其 三 [二 全 人 三 


”了 。 


其 中 sy 独立 同 分 布 , 且 ej 一 N(0,o ), 记 

尼 = 二 2 Ai 二 Am 下 二 = 一 

称 去 为 痢 平均 值 ， 称 。 为 因素 A 在 水 平 ; 下 对 实验 指标 前 效应 值 ， 为 因素 有 在 了 

下 对 实验 指标 的 效应 值 ， 显 然 有 yo = 0，》1B - 0. 于 是 ,可 概括 双 因子 方差 分 析 数 
| 7 


学 模型 如 下 ， 
假定 
三 严 十 @ 十 户 十 必 (站 = 1 2 


3 = 有 28 = 小 
一 了 班 


t5 一 N(0,r ) 上 且 相互 独立 ， 
系统 分 析 因 子 4 和 因子 对 实验 指标 影响 的 大 小 , 即 在 给 定 的 显著 性 水 平 c 下 ,检验 
如 下 统计 假设 : 
Huiaj=a=…=w=0 ( 即 因子 A 对 实验 指标 影响 不 显著 ); 
Bo: 有 = 应 =…= 虽 =0 《 即 因子 中 对 实验 指标 影响 外 显著 )， 
欲 检验 假设 瑟 , 或 鼠 ,， 其 检验 方法 类 似 于 单 因 子 方差 分 析 ， 利 用 平方 和 分 解 中 的 
省 种 离 辣 平方 和 ， 构 造 下 统计 量 ， 记 
SST - 站 阅 全 一 了 ) ， 了 = 二 yw 


天 1 je1 


5S94 = 5 六 (也 ， - 用) 38 = > (了 一 )2 3 入 ， 二 二 交 wy 了 一 二 交 
二 记 


ii 5E 


S9F -= 2 2 ( 罗 一 到 - 玫 ) + 玖 . 
称 SST 为 总 偏 羞 平方 和 ;SSE 为 误 羡 平方 和 ; SSA，SSB 分 别 为 因子 A，B 的 偏 半 平 
方 秽 . 样本 总 数 ，= 六 
同样 不 加 证 明 地 得 到 下 而 的 商 个 定理 ， 
定理 5.6 (平方 和 分 解 定理 2) 在 无 交互 作用 的 两 个 因素 的 方 关 分 析 横 型 中 有 
go 下 = SA + 99 记 + 9S9F . 
定理 5.7 (各 类 平方 和 分 布 定理 】 在 无 交互 作用 的 两 个 因素 的 方 关 分 析 模 型 中 , 有 


机 一 二 )， 


SSB 


DG 
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SEE _y2((r-D(-1))， 


其 中 ，。 为 模型 方差 ， 
这 两 个 定理 的 证 明 参 见 文献 [ 2] . 
“通常 把 以 上 求 统计 量 的 计算 列 成 一 张 表 格 ， 便于 结果 分 析 ( 见 表 5.7)， 
家 5.7 无 交互 作用 的 双 因 子 方 浆 分 析 衣 














肠 =5 1 














3 


产 =fr-tlt-1l) 六 











所 = 嫩 一 1 

根据 卫 值 推断 Ho，Ho 正 确 与 否 ， 决 策 准 则 是 : 当 Fu > 下 (六 ,六 ) 时 ， 则 拒绝 
六 o， 否 则 接受 Hi 当 到 > 下 ( 方 , 广 ) 时 , 则 拒绝 Ho， 否 刚 接受 万 或 者 由 检验 的 
最 小 显著 性 概率 训 作出 决策 , 当 p< ec 时 拒绝 相应 的 原 假 设 . 


5$.3.2 有 交互 作用 的 双 因 子 方 差分 析 


在 许多 情况 下 ， 两 因素 之 知 存 在 着 一 定 程度 的 交 扎 作用 , 所 谓 交 下 作用 ， 就 是 因素 
之 间 的 联合 搭配 作用 对 实验 结果 产生 了 影响 , 例如 有些 合金 ， 当 单独 加 入 元 束 A 或 元 素 
B 时 , 性 能 变化 不 大 , 但 当 两 者 同时 加 入 ,合金 性 能 的 变化 就 特别 显著 , 在 多 因素 的 方 
差分 析 中 , 把 交 宇 作用 当成 一 个 新 因素 来 处 理 , 为 了 考查 因素 问 的 交互 作用 ， 要 求 两 个 
方面 因素 的 每 一 交叉 项 要 有 重复 实验 . 如 例 5.6 中 ,对 于 不 同 的 树种 和 地 区 ， 每 一 交叉 
项 都 有 5 个 试验 观测 数据 , 一 般 地 ,在 有 重复 实验 的 双 因 于 方差 分 析 的 这 种 情况 下 ， 数 
据 结构 见 表 5.8， 

表 5.8 有 交互 作用 的 双 因 子 方 站 分 析 数 据 结构 表 









ti na | 2 了 靖 122 





了 了 211 3 人 na | 3 23 2 四 了 2 了 2 全 32m 
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表 中 数据 yi 表示 因子 4 ,了 在 第 ;7 个 水 平 状态 下 第 上 个 样本 观测 值 . 

与 无 交互 作用 的 情形 比较 ， 有 交互 作用 的 双 因子 方差 分 析 模 型 一 个 关键 性 的 变化 ， 
就 是 在 考虑 各 因子 效应 的 同时 ， 有 还 要 考虑 因子 间 的 交互 效应 ， 通 常用 4 x B 表示 因子 同 
的 交互 作用 ， 

下 面 的 讨论 中 , ps， 严 ，w，B 的 意义 同 5.3.T 节 , 记 六 =( 由 一 下 一 w 一 BA 
天 反映 水 平 组 合 (Ai;，Bi) 对 实验 指标 的 总 效应 ，yy 等 于 总 效应 减 去 4; 的 效应 e; 及 B3 的 
效应 记 ， 所 以 轧 表 示 A; 与 蕊 对 实验 指标 的 交互 效应 , 于 是 ， 有 交互 作用 的 双 因 子 方差 
分 析 模 型 如 下 ， 

候 定 


3 让 二 严 十 人 十 记 十 入 十 庆 
的 一 N(0o) 且 相互 独立 ， 
其 中 ，i= 1, 2 pr 了 12 =12,…, 关 ,系统 分 析 因 子 4， 腻 及 交互 作用 对 
实验 指标 影响 的 大 小 ， 即 在 给 定 的 显著 性 水 平 下 , 检验 如 下 统计 假设 : 
Fo:oi=owz=…= 一 as=0 《 即 因 子 A4 对 实验 指标 影响 不 显著 ); 
Fo)= 记 =…= 记 =0 【〔 即 因子 8 对 实验 指标 影响 不 显著 ); 


10 7 = 人 一] 2 yi 于 = 下 25) 《 即 上 X 品 对 实验 指标 影响 不 显著 ). 

类 似 于 无 交互 效应 的 方差 分 析 讨论 ， 其 理论 公式 和 推导 不 再 葛 述 ， 详 见 文 献 [8]， 
[9]，[10]，[11]. 这 里 仅 列 出 方差 分 析 表 ， 见 表 5.9. 

表 5.9 有 交互 作用 的 双 因 子 方 效 分 析 表 








SST = > DID 由 一 下 SS4 = 下 (7 用 SSB8 = mm( 帮 -及 ?， 
1 / 


1 1 三 王 】 
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节 中 所 


SSF -= (yw 一 克 ,) SS4B = SST - SS4 - SSB - SSE， 
fs1l j=1 k=1 


?一 3 生 1 到 ， 二 六 半 ， 3 小 二 二 六 写 3 币 ， 区 ,二 吉 ， 
检验 准则 是 ; 当 计算 出 的 值 大 于 给 定 e 的 临界 值 时 ， 则 拒绝 相应 的 原 假 设 ， 或 者 
由 检验 的 最 小 显著 性 概率 请 作出 决策 , 当 p< x 时 拒绝 相应 的 原 假设 . 
双 因 素 方 芝 分 析 的 计算 量 比较 大 ， 我 们 用 数学 软件 进行 计算 
对 于 汉 因 素 方差 分 析 的 问题 的 处 理 ，MATLAB 提供 了 命令 anova2， 其 调用 格式 为 
[P，table] = anova2(X，reps “disp1ayopt” ) 
这 个 命令 和 anoval() 类 似 ， 只 是 输入 惩 阵 和 的 行 、 列 各 表示 一 个 因子 ,不 同 的 行 ( 列 ) 表 
示 该 因子 不 同 处 理 下 的 响应 变量 的 观测 值 向 量 . 每 一 个 “ 行 与 列 的 偶 对 ” 称 为 一 个 数据 单 
元 ,如 果 各 数据 单元 拥有 多 于 一 个 的 观测 点 ， 则 参数 reps 声明 每 一 个 单元 观测 点 的 数 
目 . 如 在 下 面 的 扬 阵 中 
4=l1 =2 
Zlll 工 112 ja 
121 工 t22 
Y211 区 212 
下 221 拭 222 
31 斌 312 


js-3 


了 321 了 322 
行 因 子 有 三 种 不 同 处 理 ， 列 因子 有 两 种 不 同 处 理 ,每 个 数据 单元 不 同 数 据 标 号 (变动 的 
下 标 ) 个 数 为 2, 则 reps= 2( 亦 即 每 个 数据 单元 行 数 与 列 数 的 较 大 者 )， 

输出 参数 p 是 检验 列 、 行 及 其 交互 作用 均值 相等 的 最 小 显著 性 概率 ( 铭 基 )， 

下 面 加 到 例 5.6， 这 是 一 个 双 因 子 问题 , 树种 和 地 区 作为 本 题 的 两 个 因子 ,对 松树 的 
直径 都 有 可 能 产生 影响 并且 二 者 之 问 还 有 可 能 产生 交互 作用 . 即 有 可 能 出 现 某 个 地 区 
最 适合 (不 适合 ) 某 种 松树 的 生长 . 地 区 因子 有 4 个 水 平 ， 树 种 因子 有 3 个 水 平 ， 在 每 一 
个 水 平 下 分 别 抽取 了 5 个 样本 . 我 们 先 利 用 MATLAB 提供 的 命令 anova2() 来 对 本 题 作 
汉 因 子 方 莽 分 析 ， 再 用 单 因 子 方差 分 析 确 定 其 他 问题 ， 

MATLAB 数据 处 理 

CLeaL 

A=[231526132125202116148621171624271411192024]; 

B=[282225 192063026262028 19 24 19 25 29147 2118 26 23]; 

C=[lsel01l2221315212214122325 19 13 2218 12 23 22 19]; 


1 


蕊 = [na ， B“， 7 ]; 


他 双 因 子 方 差分 析 . 

Zepg= 35 

[ 疡 ，zabl16] = anova2(X，reps， “off ) 

上 述 指令 的 运行 结果 是 : 

P = 
0.0004 0.3996 日 ,4156 

Table = 
“Source “SS” “有 “下 “Prob > 了 
“Columns' [352.5333] [21 [336.2667] [9.1369] [4.3408e 一 004] 
“Rows [58.0500j [3j 139.3500] [1.0030] [0.3996] 
“Interaction” [119.6000] [6] [49.9333] [1.0333] [0.4156] 
“Error [926.0000] [4j 149.2917] 上 [ [] 
“Total' [1.4562e+ 003] [59] [] [] 


双 因 子 方差 分 析 结 果 说 明 : 我 们 看 到 返回 向 量 p 有 3 个 元 素 , 分别 表示 输入 抢 阵 和 





的 列 、 行 及 交互 作用 的 均值 相等 的 最 小 显著 性 概率 . 由 于 X 的 列表 示 树 种 方面 的 因素 ， 
行 表示 地 区 方面 的 因素 ， 所 以 根据 这 3 个 梳 率 值 我 们 可 以 知道 ; 树种 因素 方面 的 差异 显 
著 , 地 区 之 问 的 差异 和 交互 作用 的 影响 不 显 车 , 即 没有 某 种 树 特别 适合 在 某 地 区 种 植 ， 


接 下 来 对 树种 进一步 作 单 因子 方差 分 析 


名 单 因 子 方差 分 析 ， 
[B，anovateb，8tats] = ancval(X [], “oa ) 


上 述 指 令 的 运行 结果 见 图 5.2 及 ; 


D = 
3.70y1e- 004 
anovatab = 
“Souree“ “99 
“foluns” 【352.5333 ] 
“Error” [1.10365e+003] 
“Tetal [1.4562e+1003] 
8 上 BatS = 
gmames: 【3xl char] 
n: [202020] 
SoUTCe: “anoval” 
means ; 


rdf， 
[2] 

f57] 
i59] 


9， 
[176.2667] 
[ 19.3623] 
[] 


[19.5500 23.5500 417.7500] 


vv 
[9.1036] 
[] 
[] 


“Prob >> 忆 7/ 
[3.7071e 一 004] 


…[] 


[] 
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本 1U 三 车 
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图 5.2 三 种 松树 直径 的 box 图 


单 因子 方 莽 分 析 结 果 说 明 , 树种 了 B 的 平均 直径 最 大 ， 认 为 树种 B 最 好 . 实际 上 , 作 
多 重 比较 得 出 的 结论 更 细腻 、 丰 富 一 些 ， 


习题 5 


1. 装配 一 个 部 件 时 可 以 采用 不 同 揭 广 法， 所 关心 的 问题 是 哪 一 种 访 法 前 或 率 更 高 ， 
劳动 效率 可 以 用 平均 装配 时 间 反 上 肌 . 现 从 不 同 的 装配 方法 中 各 抽取 12 种 产品 ， 记 录 各 
自 的 装配 时 间 { 单 位 : min) 如 表 5.10 所 示 . 


家 5.1 
四 方法 31 34 29 32 35 3 34 铂 29 3 针 站 
乙方 法 26 24 2 29 30 29 32 36 引 押 拉 各 


两 个 变量 为 正 态 分 市 ， 且 厅 善 相同. 问 两 种 厅 法 的 装配 时 间 有 无 显著 不 同 .(a=0.05) 

2. 为 了 检验 三 家 工厂 生产 的 机 器 加 工 一 挑 原料 所 需 的 平均 时 间 是 否 相同 ， 某 化 学 
公司 得 到 了 关于 加 工 原 料 所 需 时 间 的 数据 如 表 5.11 所 示 , 利用 这 些 数据 检验 三 家 工厂 
加 工 一 批 原料 所 需 平 均 时 间 有 是 否 相同 .Ca=0.05] 


表 5. 缮 
工 厂 1 了 3 
20 2 2 
Ra 2 2 





1T57 。 


3, 一 项 调查 研究 了 信息 求 源 梁 道 对 于 信息 传播 臻 果 的 影响 . 在 该 研究 中 ,信息 来 源 
分 别 为 上 级 、 同 事 和 下 属 . 表 5.12 列 出 了 各 种 信息 渠道 的 情 播 效果 : 数值 越 高 表示 信息 
传播 弯 果 越 好 ， 请 检验 信息 来 源 对 信息 传播 浆果 是 香 有 显著 彩 响 ,(a=0.05) 

衣 5.12 

















4, 某 杂 志 的 一 个 研究 得 出 这 样 的 结论 ， 自 由 职业 者 前 工 作 压力 比 非 自由 职业 者 的 
工作 压力 大 ， 在 该 研究 中 ， 为 度量 一 些 列 糊 的 概念 ， 专 门 设计 了 若 于 问题 , 这 些 问题 术 
限 从 强烈 同意 到 强 融 反对 分 成 1 一 5 级 进行 评分 ， 得 分 越 高 表明 工作 压力 越 大 ， 现 随机 
选取 三 类 职业 的 从 业 人 员 : 房地产 代理 商 、 建 筑 师 和 股票 经 济 人 各 15 人， 研究 某 工作 压 
力 ， 得 到 分 值 如 表 5,13 所 示 ， 

衣 5.13 





房地产 代理 商 
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似 名 37 
的 32 包 
54 人 加 
如 77 67 
下 如 姑 
5 57 ] 
| 全 33 
6 如 7 了 1 
全 旨 多 
的 3 季 72 
8 ] 好 
如 妈 站 
号 如 58 








对 于 mw=0.0， 检 验 三 种 职业 的 工作 压力 是 否 有 显著 差异 ， 

5. 有 8 位 食品 专家 对 三 种 配方 的 食品 随机 癌 尝 ， 头 后 结 食品 前 口感 分 别 条 分 (满分 
为 10 分 ]， 见 表 5.14， 问 三 种 配方 的 平均 分 数 是 否 相 同 ? (aa = 0.05)( 候 定 打 分 服从 标准 
盖 杠 等 的 正 态 分 布 ) 


"158 。 数理 统计 与 M477.4 刀 灼 据 处 理 








交 5.14 








6. 对 一 所 大 学 的 研究 生 按 专业 分 组 ， 试 在 显著 性 沙 平 g =0.10 下 检验 他 们 某 科 学 
习 成 绩 是 否 有 明显 差异 ? 表 5,15 列 出 了 考试 成 绩 ， 假定 学 生成 绩 服 从 方 盖 相 等 的 正太 
分 布 ， 


衷 5.15 








7. 某 工 厂 袜 行 早 、 中 、 晚 三 班 工作 制 . 工厂 管理 邵 门 想 了 解 不 同班 次 工人 劳动 就 率 
是 否 疗 在 明显 前 差异 ， 每 个 班次 随机 抽出 了 了 个 工人 ， 得 工人 的 劳动 误 率 (单位 ; 件 / 班 ) 
凑 料 见 束 5,16. 分 析 不 同班 次 工人 的 劳动 效率 是 否 有 显著 性 羡 异 . (ec =0.05, 0.01) 

我 5.46 











8. 比较 3 种 化 肥 ( 两 种 新 型 化 肥 A,，B 和 传统 化 肥 C) 施 搬 在 三 种 类 型 [酸性 、 中 性 和 
碱 性 ) 的 土地 上 对 作物 的 产量 情况 有 无 善 列 ， 和 将 每 潜 土 地 分 成 3 块 小 区 ,施用 页 ,日 丙种 
新 型 化 肥 和 传统 化 取 . 收 神 后 ， 测 量 各 组 作物 的 产量 ， 得 到 的 数据 见 表 5.17. 
家 5.17 
化 取 种 类 项 性 土地 中 福 土地 碱 性 土地 
30 31 32 













31 3 拓 32 
27 交 23 











。 15 。 


假定 化 肥 类 禾 与 土地 类 别 之 闻 不 存在 交 五 效应 (a=0.05)， 问 : 

(IT)》 化 肥 对 作物 产量 有 彩 响 吗 ? 

(2) 土地 类 型 对 作物 产量 有 影响 玛 ? 

9. 有 三 个 工人 分 别 在 4 台 机 器 上 加 工 某 种 夫人 忻 ， 工 作 的 3 天 中 日 产量 见 表 5.18， 
衷 5.18 














斌 在 显著 性 水 平 w=0.05 下 检验 操作 工人 之 问 靶 术 术 平 的 盖 异 是 否 显 著 ? 机 器 性 能 
之 癌 的 善 异 是 藻 显 著 ? 交 亚 作用 的 彩 响 是 否 显 著 ? 

10， 在 菜 拘 衣 配 方 中 ， 考 虚 3 种 不 同 的 促进 剂 和 4 种 不 同 分 量 的 和 氧化剂， 用 同样 的 
配方 试验 两 凑 ， 测 得 300 匆 的 定 伸 强力 见 表 5.19. 读 问 乞 化 剥 、 代 进 剂 区 及 空 们 的 交 斑 
作用 对 定 伸 强力 有 无 显著 彩 响 ? 【ac = 10,.05) 

囊 5.19 























11. 某 SARS 研究 所 对 31 人 进行 革 项 生理 指标 测试 ， 结 果 见 表 5,.20. 
囊 5.24 





SARS 审 者 | 1.8 1.4 t.5 2.1 1.9 1.7 1.8 1.9 ]1.8 1.8 20 





疑似 者 | 2.3 2.1 2.1 2.1 2.6 2.5 2.3 2.4 2 .4 
非 患 者 | 2.9 3 了 .2 2.7 2,8 2.7 3.0 3 ,4 3.0 3.4 3.3 3.5 

问 , 这 三 类 人 的 该 项 生理 指标 有 差别 吗 ? 如 果 有 差别 ， 请 进行 多 重 比 较 分 析 .{r = 
0.05) 、 

]2. 为 培养 职业 技术 载 育 的 师 竹 ,通过 统计 分 析 ， 认 为 招收 在 职 生 比 招收 应 届 生 好 . 
以 酝 招 村 只 确定 一 个 录取 分 数 线 ， 对 年 齿 和 工龄 并 没 育 严格 的 限制 ， 形 成 学 生 间 在 生 活 
习 慎 和 兴趣 爱好 将 方面 有 较 大 的 差异 ， 对 平 茶 、 工 齿 两 因素 各 取 琴 个 水 平 ， 重 复 作 四 次 
交叉 试验 ， 考 痕 两 因素 与 学 习 成 绩 的 关 条 ,年 齿 、 工 蓉 两 因素 各 取 两 个 水 平 如 下 ， 








。 1T60 ， 数理 统计 与 4f477.4 吨 数据 处 理 


Ai: 年 齿 不 超过 25 岁 ， 如 : 年 睹 超 这 25 风 ; 
Bi; 工龄 不 到 了 年 ，B: 工 齿 超过 5 年， 


对 某 年 级 在 职 生 晤 年 来 所 有 课程 的 平均 成 绩 整 理 见 表 S.21， 
窜 5.21 





试问 年 点、 工具 以 及 它们 的 交互 作用 对 成 绩 有 无 显著 彩 响 ? (ae =0.05) 





s 161 。 





第 6 章 回归 分 析 


在 一 些 实际 问题 中 ， 经 常 需 训 我 们 从 定量 的 角度 去 研究 某 些 变量 间 的 关系 ， 

一 般 来 讲 ， 变 量 间 的 关系 有 两 类 , 一 类 是 函数 关系 ,， 即 变量 之 间 确 实 存 在 的 且 在 数 
量 上 表现 为 确定 性 的 相互 依 疹 关系 . 例如 ， 贺 的 面积 S 与 半径 > 有 关 ， 一 旦 半 算 > 确 
定 ， 则 面积 $ 可 通过 函数 S= rr 求 出 . 另 一 类 是 相关 关系 ， 即 变量 之 间 确 实 存在 的 但 
在 数量 上 表现 为 不 确定 的 相互 依存 关系 . 例如 ， 人 的 体重 与 身高 有 关 ， 一 般 而 言 ， 较 高 
的 人 体重 较 重 ,但 同 祥 身高 的 人 体重 却 不 会 完全 相同 ; 又 如 ， 居 民 的 情 车 存款 额 与 他 的 
收入 有 关 ， 但 同样 收入 的 人 储蓄 存款 额 也 不 会 相同 ， 

在 很 多 情况 下 ， 范 数 关系 往往 通过 具有 不 确定 性 的 相关 关系 表现 出 来 ， 面 完全 的 相 
关 关 系 必定 是 函数 关系 . 

回归 分 析 是 分 析 变量 间 相 关 关 系 的 一 种 统计 方法 ,所谓 间 归 分 析 ， 就 是 建立 变量 之 
间 相 关 关 系 的 具体 的 数学 表达 形式 . 根据 相关 关系 的 具体 形态 ， 明 确 谁 是 自 变 量 ( 可 控 
变量 )、 谁 是 因 变 量 (随机 变量 )， 选 择 一 个 合适 的 数学 模型 来 近似 地 表达 变量 间 的 平均 
变化 关系 ,并 借 此 来 探讨 对 变量 的 控制 与 预测 问题 . 这 不 仅 依赖 对 变量 之 间 相 关 程 度 的 
度量 (需要 相关 分 析 的 辅助 )， 更 依赖 变量 之 问 真实 相关 性 的 存在 . 然 面 ,现象 之 间 症 否 
存在 真实 相关 ,必须 根据 有 关 专 业 领域 的 学 科 理 论 来 确定 , 因此 ,回归 分 析 必 须要 在 定 
性 分 析 的 前 提 下 进行 ， 不 能 进行 纯 数 量 的 计算 . 

本 章 讨论 线性 回归 分 析 的 基本 方法 ， 


6.1 一 元 线性 回归 分 析 


6.1.1 一 元 线性 回归 模型 


在 一 元 线性 回归 分 析 中 ， 通 常 考虑 两 个 变量 , 一 个 是 自 变量 =， 其 值 是 可 以 控制 或 
精确 测量 的 ， 认 为 它 是 非 随机 变量 ; 另 一 个 是 因 变 量 >， 对 给 定 的 zx 值 ，y 的 取 值 事先 
不 能 确定 ， 故 > 是 随机 灾 量 , 为 了 研究 》 与 之 间 的 相关 关系 ,首先 就 要 对 变量 侦 对 
《z，2?) 进 行 观 湾 ， 收 集 数据 . 为 使 下 面 的 讨论 直观 ， 先 来 考查 一 个 例子 ， 

【 例 6.1 我 们 知道 ,营业 税 税收 总 额 》 与 社会 识 而 零售 总 额 x 有 关 , 为 能 从 社会 
商品 零售 总 额 去 预测 税收 总 额 ， 需 要 了 解 两 者 的 关系 . 现 收集 了 如 下 九 组 数据 ， 兄 表 
8.1. 
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衣 6.1 社会 商品 零 此 总 额 与 税收 总 额 单位 : 亿 元 
序 号 社会 商品 零售 总 额 营业 税 税收 总 帮 Y 





142.0g 3. 吧 
二 条. 劝 3 时 
204. 操 了 ,8 
242 .名 9 .82 
316.24 1]2,50 
341.% ， 1 .和 
332. 的 1 79 
389.29 二 ,39 
4353.4 ]8.45 


试 分 析 税 收 总 额 y 与 商品 零售 总 额 x 的 相关 关系 ,建立 回归 方程. 

通常 将 上 述 数 据 记 为 (zi，%) (= 二 2 …,a)， 本 例 m=9. 为 了 直观 起 见 ， 可 将 这 
? 对 数据 作为 平面 直角 坐标 系 *Oy 中 的 = 个 点 ， 通 过 描 点 在 平面 上 得 到 一 张 “ 散 点 图 ”， 
凡 观 察 两 个 变量 之 间 的 线性 相关 性 . 本 例 的 散 点 图 见 图 6.1， 





虽 号 证 对 上 二 





图 6.1 社会 商品 零售 总 额 与 税收 总 额 L*, )] 散 点 图 


观察 ”个 点 在 图 中 的 散布 情况 ， 发 现 本 例 的 9 个 点 散布 在 一 条 直线 附近 . 

我 们 可 以 这 样 理 解 图 中 的 信息 : 税收 总 烙 》 与 商品 零售 总 额 x 之 间 似 乎 存在 一 种 线 
性 关系 ， 也 就 是 说 税收 总 额 y 应 当 是 商品 零售 总 额 z 的 线性 函数 ; 但 是 实际 观察 到 的 数 
据点 (zt y1)，…，(z9， ?9) 却 不 在 一 条 直线 上 ,这 应 当 是 未 知 的 随机 因素 干扰 的 结果 . 
换 句 话说 ， 税 收 总 额 的 观测 值 y 由 两 部 分 释 加 面 成 : 一 是 税收 总 额 y 随 商品 零售 总 额 z 
的 变化 而 旦 线性 变化 的 趋势 (用 “ + pz 表示 ); 另 一 是 其 他 随机 因素 干扰 的 总 和 (用 e 表 
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示 )， 即 观测 数据 (z;,，y) (= 1,2,…,9) 应 当 满足 关系 式 
筋 二 4 十 并 :+ 晤 ， 
通常 假定 se ~ N(0,e2) (i=1,2.…,9) 且 省 个 e 相互 独立 , 至 此 ,可 以 给 出 一 元 线性 回 
归 分 析 的 基本 概念 ， 
定义 6.1 (一 元 线性 回归 模型 ) 设 > 是 自 变 量 ( 非 随机 变量 ,其 值 是 可 以 控制 或 精 
确 测量 的 )，y 是 因 变 量 ( 随 机 变量 ， 对 给 定 的 z 值 不 能 事先 确定 ”的 取 值 )， 则 称 
3=&+TRr+8 (一 N(0,o) 
为 一 元 晃 性 回归 模型 (理论 模型 )， 其 中 ，e,B 称 为 模型 参数 ; es 称 为 模型 随机 误差 
求 线性 函数 
(=ae+ 应 
的 经 验 回归 方程 
和 -和 名 
称 为 建立 一 元 线性 回归 模型 . 其 中 ，?》 是 已 (y) 的 统计 估计 ) z, 8 分 别 是 ,8 的 统计 个 
计 ， 称 为 经 验 回 归 系 数 ， 
设 数 据 对 (z,,y ) (;i = 1,2,…, z) 是 变量 对 (z，?) 的 观测 数据 ， 风 
站 =aRzriTEi 
称 为 一 元 大 本 回归 方程 (数据 模型 ). 其 中 ，s 一 N(0,o) (=12,…,#) 且 各 个 相互 
独 芯 ， 


6.1.2 模型 参数 的 估计 


一 元 线性 回 妇 分 析 的 核心 工作 是 建立 一 元 线性 回归 焕 型 ， 其 关键 是 如 何 利用 观测 数 
据 估 讨 模型 参数 ， 即 求 出 回归 系数 ， 

求 回归 系数 的 最 常用 的 方法 是 最 小 二 条 估 计 . 下 面 给 出 最 小 二 乘 估计 的 概念 ， 

定义 1.2 (一 元 线性 最 小 二 生 估 计 ) 称 


Qte 月 = [wy -EOO= 补 -ap 
为 和 (= 1 2,…,2) 回 归 到 直线 已 (y) = w+ 有 zx 时 的 误 盖 平 方 和 . 若 存在 &， 信 使 得 
Q(c, 角 =minQ(e， B)， 
则 称 s， 加 为 模型 参数 。，8 的 最 小 二 宋 居 计 ， 并 称 


员 
3 二 有 Ti 


为 因 变 量 mi = 1,2,…,2) 的 回归 报 合 值 ， 简 称 回归 值 或 拟 合 值 ， 称 


册 上 
人 
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为 因 变 量 (=1,2.…, 2) 的 残 盖 ， 
关于 最 小 二 雪 估 计 的 算法 ， 可 以 从 不 同 的 角度 推出 ,应 用 中 最 为 方便 的 是 矩阵 算 





法 ， 
定理 6.1 { 一 元 线性 回归 模型 参数 最 小 二 乘 估计 的 阜 阵 算 法 ) 记 
了 1 1 1 
贞 
= |， x= | . 了 |， -| 
: : 1: 人 
3 工 xx 


则 一 元 线性 回归 的 数据 模型 为 ?= X4 . 这 是 一 个 不 相 容 线性 方程 组 ， 当 rank( 导 )=2< 
a 时 ,其 最 小 二 滋 解 为 
秆 =( 居 [是 ) 1 大 T， 

通常 ,在 高 等 代数 的 广义 逆 矩 阵 理 论 中 有 关于 这 一 算法 的 详细 推 证 ， 感 兴趣 的 读者 
请 自行 查 疝 有 关 教 程 ， 

设 z, 8 为 模型 参数 w, 8 的 最 小 一 乘 估计 ， 可 以 证 明 下 面 的 结论 ， 

@ x, 捕 8 的 无 偏 估计 , 即 (2) =e，E( 人 = 有 

加 xs 和 多 的 服从 正 态 分 布 ， 即 








其 中 =- 二 nm (rn 
二 + 


由 此 可 知 , 提高 5 和 各 估 计 精度 的 一 个 基本 策略 是 增加 样本 容量 ,采样 应 尽 可 能 分 
散 ( 即 增 大 1 ). 

全 参数 的 区 间 估 计 : 在 结论 和 轩 以 及 6.1.3 节 关于 模型 标准 佐 v 的 估计 之 上 , 可 
推出 。 的 1- ec 悟 信 区 问 为 


A Aw | 1L 至 A。 | 工 ， 元 
一 _ 一 十 二 - 十 __ 二 
E 上 -了 2)j4 症 二 7 思 - 有 (人 2)7 + 人 


有 B 的 1-~a 置 信 区 间 为 


[7 记 ， 和 32 全 | 
其 中 ,g "是 的 无 偏 估计 ( 详 见 6.1,3 节 )， 


@@ 8 的 估计 信和 与 >，y 的 相关 系数 >。 是 成 正比 例 的 ， 即 久 = 如 ，( 上 >0). 这 一 点 在 
应 用 中 对 回归 方程 的 解释 而 言 是 非常 重要 的 ， 
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相关 证 明和 参见 文献 [2], 
4.1.3 回归 方程 的 三 著 性 检验 


在 回归 分 析 中 , 一 个 重要 的 环节 就 是 分 析 回 归 方 程 的 拟 合 效果 (从 统计 上 判断 回 妇 
方程 是 朱 有 意义 ). 这 项 工作 主要 的 是 回归 方程 的 显著 性 检验 ,容易 理解 ， 如 果 变 量 》 
与 变量 z 不 存在 线性 相关 关系 ,此 时 相关 系数 。 = 0， 即 不 论 z 如 何 变化 ，{y) 不 会 
随 之 而 改变 ,在 这 种 情况 下 求 出 的 回归 方程 》 = x+ 人 zx 是 没有 意义 的 . 因此 ， 回 归 方程 
显著 性 检验 的 问题 可 描述 为 Hi:p=0, 如 果 检 验 不 能 拒绝 再,， 则 得 到 的 回归 方程 不 能 
用 来 进一步 分 析 变 量 》 与 z 的 关系 ， 

间 归 方程 显著 性 检验 的 方法 很 多 ,这 里 介绍 最 常用 的 方差 分 析 方法 . 

定义 6.3 ”在 一 元 线性 回归 方程 的 显著 性 检验 中 , 称 统计 量 


SST = 2 (9 -- 7 为 总 篇 半 平方 和 ， 其 自由 床 为 六 = 二 
SSR =- 》 (入 - ?为 回归 平方 和 , 其 用 由 度 为 廊 = 1 


SSE -= 六 ( - 儿 ) 为 区 差 平方 和 ， 其 自由 度 为 扩 =m -2 


定理 1.2 【偏差 平方 和 分 解 定 理 }) 5SST= SSR + SSE 

定理 6.2 的 结论 是 显然 的 , 在 多 数 的 数理 统计 教程 中 都 可 以 找到 其 证 明 ， 
定理 6.3 (检验 统计 量 构 造 定 理 ) 

四 二 一 (2 

加 在 HH 为 真 时 ，SSR ~ X2(1); 

加 SSR 与 SSE 相互 独立 ; 


国 F= E 一 P(1 # 一 2)( 检 验 统计 其 ). 


入 一 立 

定理 6.3 的 结论 @、@、@ 的 证 明 稍 难 一 些 , 可 参见 文献 [1]; 由 玉 分 布 的 统计 生成 
定理 , 结论 全 是 显然 的 . 

于 是 , 根据 定理 6.3， 回 归 方程 显著 性 检验 的 方差 分 析 ( 下 检验 ) 方 法 如 下 ， 

他 求 出 回归 平方 和 SSR 与 残 姜 平 方 和 SSE， 进 而 求 出 检验 统计 量 丰 的 值 ， 

@@ 求 出 检验 的 显著 性 概率 = PIF(1，z -2) > 下 | . 

图 检验 决策 ,决策 准则 是 : 

在 显著 性 水 平 c 下 ， 当 > 六 时 拒绝 再 j， 即 认为 回归 方程 有 显著 意义 ， 

当 <0.01 时 ,， 称 回归 方程 高 度 显 著 , 标记 为 x * ; 


1T65 。 数理 统计 与 8427.4 中 数据 处 再 


当 0.01 委 p<0.05 时 ， 称 回归 方程 显著 ， 标 记 为 x# 
当 六 0.05 时 ， 称 回归 方程 不 显著 ， 不 作 标记 . 
通常 ， 将 检验 结果 整理 成 如 表 和.2 所 示 的 检验 报告 (方差 分 析 表 )， 





于 6.2 回归 方程 显 车 性 检验 的 方 起 分 析 
方 林 来 池 偏 莽 平方 和 自 虫 度 下 依 六 信 显 堵 性 
性 放 =1 
克 SS 灵 一 加 _ 
残 冀 SGF 六 -aa 了 AS 自 = 亚 f 丰 (1 六 一 2 六 王 | 





总 计 SST 廊 =m 一 1 
关于 回归 方程 拟 合 效果 的 分 析 ， 还 可 以 从 另外 两 个 方面 进行 ， 
由 可 决 系数 分 析 . 最 常用 的 测定 回归 直线 对 各 个 观测 点 的 拟 合 程度 的 统计 量 是 


= ， 通常 称 之 为 可 决 系数 . 显然 ,一 E [0,1]，r? 的 值 越 大 (小 )， 表 明 回 归 直 线 对 


各 个 观测 点 的 拟 合 程度 越 高 ({ 低 ). 车 一 =1, 即 SSE =0, 天 明 y 对 = 几乎 有 确定 的 线性 
函 数 关系 ; 若 "=0, 即 SSR =0,， 表明 y 对 zx 完全 没有 线性 相关 关系 . 注意 ,简单 的 推 


导 即 可 明了 ~= + y "的 统计 意义 ，r 等 于 变量 y 的 观测 数据 ，y, …, 》 与 模型 拟 合 
数据 y,, ?>。，…,》 之 间 的 相关 系数 ， 其 正 负 号 与 回归 系数 人 的 正 负 号 相同 ， 

@@ 估计 的 标准 误差 由 定理 6.3 的 结论 个 可 知 ，E( SSE) = (z 2)52. 因此 定义 统 
计量 ?= 和， 显然 ,0 ?是 模型 方差 o 的 无 偏 估计， 进而 2 ”= .SS 可 以 作为 对 模 


型 标准 差 * 的 估计 , 通常 称 为 变量 》 对 = 的 最 小 二 乘 回 归 的 傅 计 标准 误 羞 . 显然 ,4* 的 
值 越 小 ,表明 回归 直线 对 各 个 观测 点 的 拟 合 程度 越 高 ， 


需要 指出 前 是 ， 可 以 证 明 2&us= 二 SSE 是 的 有 偏 估计 ，e 








Ms: 由 定理 


ae wa 本 ss ss 
6,3 的 结论 四， 容易 得 到 模型 方差 v 的 1-“ 置信 区 间 为 | 2 -sm 2 她 (n- 2) | ， 


6.1.4 利用 回归 方程 进行 预测 


建立 回归 方程 的 目的 不 仅 是 措 述 变量 之 间 的 关系 ,更 重要 的 是 回归 方程 的 应 用 利 
用 所 建 回归 方程 对 因 变 量 进 行 预 测 是 其 应 用 的 基本 内 容 , 在 一 元 线性 回归 分 析 中 ， 当 回 
归 方 程 y= x+ 和 外。 具有 统计 显著 性 时 ， 利 用 回归 方程 容易 实现 对 因 妆 量 y 的 顶 测 ， 而 这 
一 问题 的 实质 是 对 y 的 点 估计 和 区 间 估 计 . 

在 6.1.2 节 讨 论 的 基础 上 ， 容易 证 明 ， 
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2 
和 -一 | ol,| 二 + 全 计 |o| ， 且 9 y 独 立 








这 个 结论 表明 ,经验 回归 方程 》= 4 + 办 z 是 线性 冰 数 E(y) = a + px 的 无 偏 估计 


因此 , 当 * = zy 时 ， 因 变量 的 预测 值 即 为 ?= a +azm 它 是 yo=a+aro+st 的 
无 偏 估计, 在 显著 性 水 平 下， 的 估计 边际 误差 (区 间 估 计 ) 可 由 准则 式 


卫 | | 加 |<sEzl-a 
确定 . 由 》 和 y 的 分 布 可 以 推出 


页 1 (0 一 元) 
让 = ua(m -2)2 11+ 工 +- 
2 瑚 


显然 莉 测 的 精度 取决 于 沪 的 大 小 , 而 影响 大 小 的 因素 主要 是 样本 容量 za，z 与 的 
焉 离 以 及 自 变量 的 偏差 平方 和 ! .. 当 样 本 容量 * 较 大 ，zu 与 zx 的 上 距 离 较 近 ， 自 变量 的 
偏差 平方 和 !_ 较 大 (采样 较为 分 散 ) 时 , 人 的 取 值 就 较 小 , 此 时 莉 测 的 精度 较 高 ， 另 外 ， 
当 zo 冬 [zh, zto] 时 ， 预测 精度 可 能 变 得 很 差 ， 在 这 种 情况 下 作 外 推 ， 需 要 特别 小 心 

由 于 上 而 计算 边际 误差 》 的 公式 略 显 元 繁 ， 故 在 实际 应 用 中 , 当 r, 取 在 示 附 近 ， mn 
很 大 时 ， 利 用 》0 - yo 一 N(0,5 3) 计算 近似 的 边际 误差 8*， 此 时 % 的 0.95 狐 测 壮 信 
区 间 近 似 为 (为 -28*， 为 +28*)，0.99 预测 署 信 区 间 近 似 为 ( 信 一 36"， 入 二 3 从 *)， 

MATLAB 提供 了 线性 回归 模型 的 建 模 与 评价 函数 regress. 下 面 利 用 这 个 函数 完成 
钙 6.1 的 建 模 与 评价 . 首先 对 函数 regress 的 使 用 方法 进行 简单 介绍 ， 

函数 regress 可 用 于 个 自 变量 、 一 个 因 变 量 的 线性 回 妇 模型 y= 确 +E，s 一 
N(D,oD) 的 建 模 和 模型 评价 . 其 调用 格式 为 

[jb, bint,z, zint, stats] = ragresg(Yy,X,alphay》 

其 中 ,输入 参数 和 X 表示 户 个 自 变 量 的 个 观测 值 的 x 矩阵 ，y 表示 因 变 量 的 * 个 观 
测 值 的 * x1 向 量 ，alpha 是 显著 性 水 平 (可 以 缺 省 ， 此 时 默认 为 0.05); 输出 参数 虽 返 轿 
的 是 模型 系数 (向 量 )8 的 最 小 二 乘 估 计 值 ，bint 是 8 的 100(1 - alpha)% 置 信 区 间 ,，r 是 
磺 型 拟 合 残 差 (向 量 )，rint 是 模型 拟 合 残 差 的 100(d - alpha)% 置 信 区 间 ，stats 包含 可 诀 
系数 及 * 的 值 、 方 差分 析 的 F 统计 量 的 值 、 方 差分 析 的 显著 性 概率 的 值 和 模型 方差 o2 
的 估计 倩 ，binrt、r、rint 和 stats 可 以 缺 省 ， 

下 面 给 出 例 6.1 回归 分 析 的 MATLAB 数据 处 理 ， 

[1 

x= [142.08,t177.30,204.68, 242.88, 316.24,341.99,332.69,389.29,453.401/; 

Y = [3.93,5.96,7,85,9.82,12.50， 15.55,15.79，16.39,18.45]】， 

X= [ones( length(x)v1),xJ 多 煌 六 自 变 蝎 观测 值 和 阵 
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[b, bint,r,zint, states] = regresstyY， X); 线性 回 妇 建 模 与 评价 
b，states 与 显 示 所 关心 输出 参数 


上 述 指令 的 运行 结果 其 
b = 
一 2.2610 
0.0487 
StateSs 三 
站 .9625 179 ,7711 0,.0000 1.1315 


由 此 可 知 ， 园 归 方程 为 ?= -2.2610 +0.0487z， 回 妇 方程 高 度 显著 ， 可 决 系数 
Rz= 0.9625， 模 型 方差 的 估计 z2= 1.1315， 

{ 例 6.2]】 利用 例 6.1 关于 营业 税 税收 额 y 与 商品 零售 额 * 的 回归 方程 ,预测 当 商 
品 零售 额 x = 300 亿 元 时 ,营业税 税 收 额 y 为 多 少 亿 元 . 

分 析 ”进行 点 预测 和 区 间 预 测 . 由 于 = = 300 亿 元 接近 商品 零售 额 的 平均 值 ， 故 用 
近 亿 置信 区 间 进 行 区 间 预 测 ， 显 著 性 水 平 取 0.05. 

MATLAB 数据 处 理 ( 接 例 6.1 进行 ) 

xz0=300; 

Y0=Bbfl1)t+bf2)xx0 名 点 报 测 

SSE = suatty- (bt1)+Db(2)xx)) .2); 和 计算 残 盖 平 方 和 

STD = sqrt(SSBEA(leangth(x) - 2)); 要 计算 标准 误 差 

DELTR = 2 * STDi 生计 站 站 .05 显著 性 水 平 下 的 边际 误 姜 

cl= [Y0O-~DELTA，Y0+DELTR]S0.95 置信 区 间 

上 述 指令 的 运行 结果 是 ; 

Y0 = 

12.3423 
习 二 = 
10.2149 14.4698 

邯 当 社会 商品 零售 总 额 为 300 亿 元 时 ,营业税 平均 税收 总 额 的 预测 值 约 为 12.3423 

亿 元 , 其 0.9%5 置信 区 间 为 (10,.2149，14.4698) . 


6,3.5$ 目标 困 数 可 线性 化 的 曲线 回归 分 析 


在 一 些 实际 问题 中 ,变量 间 的 关系 并 不 都 是 线性 的 ， 这 时 就 应 该 用 曲线 去 进行 报 
合 , 首先 要 解决 的 问题 就 是 回归 方程 中 的 参数 如 何 估计 . 解决 这 一 问题 的 基本 思路 是 : 


对 于 骨 线 加 归 建 模 的 非 线性 目标 烙 y ~ F(z)， 通 过 某 种 才学 变换 | "一 ”使 之 " 
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性 化 *， 化 为 一 元 线性 函数 = a + u 的 形式 ， 继 而 利用 线性 最 小 二 乘 估 计 的 方法 估计 
出 参数 = 和 6， 用 一 元 线性 回归 方程 =& + 8s 来 描述 与 x 间 的 统计 规律 性 ， 然 后 再 





















一 1 
= 了 T 《za _ 
用 道 变换 人 -还 原 为 目标 画 数 形式 的 非 线性 加 内 方程 表 6.3 给 出 了 常用 的 非 
褚 一 共 下 
线性 函数 及 其 线性 化 的 方法 . 
衷 4,3 常用 的 非 线 性 菌 数 线性 化 的 方法 
名 称 定 立 图 像 线性 化 方法 
出 
倒 寺 函数 y=a+6 十 令 m= 几 “= 十， 则 和 =a+ 训 
总 王 
季 
上 站 
双 曲 线 霄 数 令 v= 二 ， w= 二 , 则 yw=a+ 到 
65 尽 站 
他 开 
了 人 < 
乔 函 数 0<5<1 AN、 令 =jny， ua = 和 xz， 刚 ma=jna+ 
心 亚 
时 
五 0 让 > 自 
指数 画 数 了 = ae 售 t=jny， aa=E, 则 =lna+ 吧 
心 证 
入 
5<d 
倒 指 数 函 数 = 4esix 令 = 加 ny， x= 十 ， 则 mw=jna + 后 
bs>0 


"170。 数理 统计 与 W4.4 态 数据 处 理 








终 地 6.3 








令 a= 浊 站 =inzr, 财 =a+Ba 


令 z= 六， 8 则 =a+ 雪 











当 目 标 函 数 线性 化 之 后 , 接 下 来 的 线性 回归 建 模 同 前 ， 横 型 评价 工作 应 在 线性 回归 
方程 偿 原 为 非 线性 回归 方程 后 进行 ,相关 概念 和 会 式 同 线性 回归 ， 这 里 不 再 蓝 述 ， 

【 例 6.3]】 为 了 解 百 货 商店 销售 额 zx 与 流通 费 率 [反映 商业 疾 动 的 一 个 质量 指标 ， 
指 每 元 商品 流转 额 所 分 排 的 流通 费用 )? 之 间 的 关系 ,收集 了 九 个 商店 的 有 关 数 据 ， 见 
表 6.4， 试 建立 流通 费 率 》 关于 销售 客 z 的 回归 方程 . 

惠 6.4 销售 晤 与 流通 费 率 数据 
销售 额 /7 万 元 
















菲 
对 
汕 r 


访 通 费 率 7% 


了 .0 
十, 癌 
了 .6 
3 
2.7 
之 .和 
2.4 
了 .5 
2 .2 








1.5 
4 .3 
了 .3 
吉 ,3 
13 ,5 
16.5 
雪子 
22.5 
2 .4 


分 析 首先 绘制 茹 点 图 以 直观 地 选择 拟 合 曲线 ， 这 项 工作 应 结合 相关 专业 领域 的 知 
识 和 经 验 进 行 ， 有 时 可 能 需要 多 种 尝试. 选 定 目标 函数 后 进行 线性 化 变换 ， 针 对 变换 后 
的 线性 目标 函数 进行 回归 建 模 与 评价 ， 然 后 再 还 原 为 非 线 性 回归 方程 ， 

MATLAB 娄 据 处 理 

名 绘制 散 点 图 以 直观 地 选择 拟 合 曲线 . 


心 1eBE 


区 二 和 
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x=[1.5,4.5,7.5,10.5,13.5,16.5,19.5,22.5,25.5]; 
Y= [7.0,4.8,3.6,3.1,2.7,2.5,2.4,2.3,2.2]; 

六 Lot Y， “- Oo ) 

土 述 指令 的 运行 结果 见 图 6.2， 





站 瑟 10 15 20 站 身 
图 6.2 销售 皮 与 流通 费 率 数据 散 点 图 


对 比 图 5.2 与 表 6.3 中 所 这 函数 图 像 ， 初 步 判 断 应 以 宕 函数 曲线 为 拟 合 目标 ， 即 非 
线性 回归 建 模 的 目标 函数 为 y= ars(5<0) 其 线性 化 变换 公式 为 = iny x=lnz， 线 性 
函数 为 wm=lna + 5u， 

@@ 线性 化 变换 即 线性 回归 建 模 与 模型 评价 ， 

U= 1ogfz)“; 外 线性 化 恋 接 

V= log(Y)7) 生 线 性 化 变换 

Mg = [onas{ LengthfTU) ,1),U]; 包机 造 自 变 量 观 测 值 起 了 械 

[b, bint,r,rint， states] = regxresstY NO) 所 线性 回归 建 模 评价 

也 ， 8 和 七 扣 全 

上 述 指令 的 运行 结果 是 : 

D = 

之 .1421 
一 站 ,4259 
Statee = 
日 ,9928 963 .5572 0.0000 0.0012 


由 此 可 知 ,回归 方程 为 ?=2.1421 -0.4259x， 回 归 方程 高 度 显 著 ， 可 决 系数 R2 = 
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0.9928， 模 型 方差 的 估计 cz = 0.0012， 
严格 来 讲 ， 模 型 评价 工作 应 在 送 线 性 化 变换 后 进行 . 但 是 ， 若 所 建 线性 回归 方程 不 
理想 ， 则 相应 的 非 线 性 回归 方程 必定 不 理想 现 得 到 的 线性 回归 方程 是 非常 理想 的 ， 
道 线性 化 变换 求 非 线性 回归 方程 ， 
R= expfbft1))%% 弟 线性 化 变换 ， 措 型 素数 还 原 
B = bf2) 
上 述 朱 令 的 运行 结果 是 ， 
下 壹 
哩 ,5173 
也 三 
一 0.4259 


即 非 线 性 回归 方程 是 4=8.5173z -0423， 非 线性 回归 方程 的 评价 略 ， 


6.2 多 元 线性 回归 分 析 


6.2.1 多 元 线性 回 妇 模型 


多 元 线性 回归 分 析 是 应 用 最 广泛 的 多 元 分 析 方 法 之 多元 线性 回归 分 析 的 原理 与 
一 元 线性 回归 分 析 完 全 相同 ,但 在 计算 上 要 复杂 得 光 ， 通常 需要 借助 计算 机 和 统计 软件 
才能 得 以 应 用 ， 

定义 6.4 (条 元 线性 回归 模型 ) 设 ri rz, …,z， 是 如 ( 关 2) 个 自 变 基 (解释 变量 )，y 
是 因 变 量 ， 则 称 

y= 外 +Pizi+pxz+…+pors+e (一 N(0o)) 

为 多 元 线性 回归 模型 (理论 模 迎 ). 其 中 ，po, 8 82，… 及 是 二 +1 个 模 迎 参数 (pu 称 为 
常数 项 ，P1 ,82，…，, 有 称 为 模型 系数 ); s ~ N(0，c) 是 模 凶 随机 误差 . 

求 请 元 线性 函数 

忆 (= 名 TARxi+pB2ra+…+Porh 
的 经 验 回归 方程 
2= 负 + 负 起 ra 让 

称 为 建立 多 元 线性 回归 模型 . 其 中 ，? 是 己 (?) 的 统计 估计 ; 名， 各， 名，…, 入 分 别 是 Bi， 
有 ,1 的 统计 估计 ， 称 为 经 验 闻 妇 系 数 ， 

设 对 变量 向 量 xi rz …,xo，? 的 a 次 观测 得 到 的 样本 数据 为 (zi zi ip 
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(=1,2, 91 让 + 直 ， 为 了 今后 讨论 方便 ， 引 入 矩阵 


y1 1 1 荆 1 向 E1 
22 了 了 31 光 有 E2 
三 蚌 三 他 儿 = ， ， 号 三 了 
1 六 下 丰 E 
3 和 二 玫 产 pv 居 
于 是 , 称 
?=Xp+E 


为 多 元 样本 园 归 方程 (数据 模型 )， 其 中 ，rank( 正 ) = 户 +1< RE 一 NO ea。 ) 
且 各 个 相互 独立 . 由 于 和 抢 阵 蕊 是 样本 数据 ，X 的 数据 可 以 进行 设计 和 控制 ， 因 此 , 矩 
狂 YX 称 为 回 尺 设计 些 阵 或 资料 矩阵 ， 

对 于 几 元 线性 回归 模型 ， 需 要 强调 指出 的 是 ， 

名 条 件 rank( 2 = 户 +1<m 表明 ,，X 是 一 个 满 秩 矩 阵 ， 即 矩阵 X 的 列 向 量 (解释 变 
基 ) 问 线性 无 关 , 样本 容量 的 个 数 应 当 大 于 解释 变量 的 个 数 , 违反 该 假设 时 ,， 称 模型 存在 
多 重 共 钱 性 问题 ， 

加 条 件 s 一 NO ex) 且 各 个 s 相互 独立 表明 ， 系 统 受 到 等 均值 齐 性 方 关 
的 正 态 随机 干扰 ,系统 自 变量 之 加 不 存在 序列 相关 ， 即 
5 ，i= 放 
0， 关 六 
当 Var(ei) 关 Var(e ) 〔i 天 让) 时， 称 回归 模型 存在 异 方差 . 当 Covfei si) 关 0 1 天 让 时 ， 
称 回归 模型 存在 自 相 关 . 

当 入 型 违反 上 述 假 设 后 ， 就 不 能 使 用 最 小 二 委 法 估计 回归 系数 . 解决 方法 将 在 后 面 
介绍 ， 先 介绍 模型 符合 假设 时 的 参数 估计 方法 ， 


6.2,2 模 劲 参数 的 估计 


多 元 线性 回归 分 析 估 计 粮 型 参数 的 原理 和 方法 同一 元 线性 回归 分 析 . 
定义 6.5 ( 杀 元 线性 最 小 二 乘 估计 ) 称 


Q(pp cb) = -ECOD 了 = 2 -有 -Ra 
为 园 归 宝 差 平方 和 ， 若 存在 外 ,全 ，…, 久 ,使得 
Q( 和 杀生 各) insQ(R 有 有 
则 称 包 ， 包 ，…, 外 为 模型 参数 pu, 8,，…,B， 的 最小 二 乘 估计 ， 称 


E(ei)=0， Cov(s，)= 人 2 
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内 A A 
3 二 疝 二 记 ziH1 十 癌 了 2 直 5 


为 因 变 量 (=1,2,…,a) 的 回归 氢 合 值 ， 简称 回 归 值 或 拟 合 值 ， 称 
开 
人 二 


为 因 变 量 y 人 = 二 2 …, 2) 的 残 姜 . 

定理 6.4 ! 杀 元 线性 回归 横 型 参数 最 小 二 乘 估计 的 矩阵 算法 ) ” 当 满 足 多 元 线性 可 
归 模 型 的 理论 假定 时 ， 模 型 参数 由 ,8 …, 凡 最 小 二 乘 估 计 的 和 卸 阵 算法 是 

如 = 《 慎 了 定 ) 1 天 7 ， 
可 以 证 明 ， 异 型 参数 的 最 小 二 乘 估计 服从 正 态 分 布 ， 即 
外 一 NG8 ca) 他 三 1 2，…， 访 少 

其 中 (XITX)-1= (cv 

由 此 可 见 ， 铺 = (记名 ，…, 久 并 是 户 = (Bo 8 …, Br 的 无 偏 估计 协 方差 阵 
Cov( 的 反映 出 佑 计量 多 的 波动 大 小 ， 由 于 Cov( 航 = o2(XTX) 1， 所 以 和 的 波动 大 小 可 以 
由 抽样 过 程 中 进行 控制 ， 间 一 元 线性 回归 分 析 一 样 ， 在 多 元 线性 回归 中 ， 样 本 容量 要 尽 
可 能 大 ， 采 样 要 尽 可 能 分 散 ， 
6.2.3 夯 归 方程 的 显著 性 检验 


多 元 回归 方程 的 显著 性 较 一 元 的 情形 于 复杂 一 些 . 
4.2.3,1 条 元 司 归 方程 显著 性 的 整体 性 检验 
检验 自 变量 zt, zy … zy 的 全 体 对 因 变 量 》 是 否 有 显著 影响 ， 最 常用 的 整体 性 检 
验方 法 仍 是 方差 分 析 方 法 ,检验 的 原 假设 是 可 0: = 记 =…= 有 =0( 回 妇 方 程 无 意义 ) 
定义 6.6 在 多 元 线性 回归 方程 的 显著 性 检验 中 ， 称 统计 量 


SsT = (yw - 5 为 总 偏差 平方 和 ， 其 自由 度 为 入 = a 一 1i 
SSR = 2 人 - 了) 为 回归 平方 和 ,其 自由 度 为 请 = 户 ; 


SsE - 2 - 少 )? 为 匠 差 平方 和 ， 其 自由 度 为 户 =z 一心 -1. 


可 以 证 明 ， 偏 姜 平 方 和 分 解 定理 仍然 成 立 ， 

定理 6,5 (偏差 平方 和 分 解 定理 ) SST= SSR + SSE 
进而 ， 可 以 证 明 下 面 的 定理 ， 

定理 6.6 { 检 验 统计 量 构造 定 理 ) 
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于 -2(n-p-1)i 
人 


@ 在 成 为 真 时 ， > 2 一 X2( 有 ) 
转 SSR 与 SSRE 相互 独立 ; 
SSR 

Ri 

攻 一 声 一 】 
于 是 ， 根据 定理 6.5， 儿 元 线性 回归 方程 显著 性 检验 的 方 蒜 分 析 方 法 如 下 . 
全 求 出 回归 平方 和 SSR 与 残 差 平方 和 SSE， 进 而 求 出 检验 统计 量 F， 
@@ 求 出 检验 的 显著 性 概率 户 = 已 {F( 训 ,ma 一声 一 1 六 下 上， 
含 检验 决策 ,决策 准则 是 ， 
在 显著 性 水 平 x 下 , 当 > 尹 时 拒绝 互 ,， 即 认为 回 妈 方程 有 显著 意义 ， 
当 p<0.01 时 ， 称 回归 方程 高 度 显 著 ， 标记 为 * * ; 
当 0.01 和 p<0,.05 时 ， 称 回归 方 各 显著， 标记 为 * ; 
当 pz20,05 时 ,， 称 回 妇 方程 不 显著 ,不 作 标记 ， 
亦 应 将 检验 结果 整理 成 方差 分 析 表 ， 如 案 6.2 所 未 . 


此 外 , 与 一 元 线性 回归 分 析 类 似 ,可 用 可 决 系数 贮 = 站 天 来 测定 回归 方程 对 各 个 观 
测 点 的 拟 合 程度 


由 于 BE(SSE)= (a 一 户 -1)c2， 所 以 可 用 统计 量 2"?= - > 一 对 模型 方差 oz 进行 
估计 
6.2,3.2 ”多 元 线性 回归 方程 中 每 个 自 变量 对 因 变 量 影响 显著 性 检验 

在 多 元 线性 回归 分 析 中 , 关于 自 变量 对 因 变 量 影 响 显著 性 的 问题 ， 除 前 面 的 整体 性 
检验 外 ,通常 还 要 检验 每 个 自 变 量 *, 对 因 变 量 y 影响 的 显著 性 . 检 验 的 原 假设 是 

0 已 =0 (1 2,…, 力 )， 

这 里 扼要 介绍 常用 的 下 检验 方法 , 检验 统计 量 构造 及 其 分 布 结论 如 下 . 

在 妃 为 真 时 ,检验 统计 量 
P = 一 和 姑 一 声 一 二 )， 

2 一 户 一 





检验 的 显著 性 概率 
户 = PEF(L ma 一 访 一人 > 忆 
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愉 验 的 决策 准则 是 : 在 显著 性 水 平 下 , 当 e > 请 时 拒绝 五， 即 认为 解释 变量 zx; 对 因 
变量 y 影响 显著 ， 
若 存在 不 显著 的 变量 ， 取 丽 二 下 从 回 妇 方程 中 噜 除 自 变量 zx 设 从 原 回 
归 方 程 
= 外 + 负 z++ 包 ri 外 让 
中 日 除 自 变 最 ez 后 ,重新 建立 的 回归 方程 为 
>= 入 + 和 衣 zi+ 人 + 夭 -zl 上 夭 azkei 家 xp 


则 可 以 证 明 ,新 闻 妇 方程 的 系数 与 原 回归 方程 的 系数 有 如 下 关系 ; 
欠 = 记 - 汪 0=2 天 和， 
而 


和 三 书 一 了 
对 于 新 建立 的 回归 方程 ， 必 须 对 每 一 个 余下 的 变 基 再 次 进行 检验 ,直至 余下 变 其 全 
部 显著 为 止 . 
在 问题 能 够 满足 模型 理论 的 假定 条 件 时 ， 建 模 与 模型 评价 的 数据 处 理 可 由 前 面 介 绍 
过 的 regress 冰 数 完成 . 但 是 ， 这 种 情况 在 实际 应 用 中 是 可 遇 不 可 求 的 , 因此 ,多 元 线性 
回归 分 析 更 有 效 的 建 模 方法 将 在 6.2,5 和 6.3 节 中 进行 讨论 ， 


6.2.4 利用 回归 方程 进行 预测 


在 多 元 线性 回归 分 析 中 , 当 回 归 方程 >= 岛 + 包 zi + 印 zz+…+ 委 =, 具有 统计 显著 
性 时 ， 利 用 珂 归 方程 容易 实现 对 因 变 量 y 的 预测 ， 其 方法 同一 元 的 情形 ， 这 里 仅 作 扼要 
介绍 . 

设 预测 点 为 zo= (zo rm,…,*zop) 7， 则 

= 外 + 负 za 十 让 王 0 + 和 
是 对 
下 (30= 训 二 Bi70 记 ro+… + 有 zz0p 
的 点 舍 计 ， 亦 是 对 
30= 外 +Birol+Boro+…+Broo+esn (eg~N(0c)) 
的 点 预测 并且， 可 以 证 明 统计 量 


由 
30 





= (1)， 


如 


其 中 
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2 1(zoi 一 元 儿 工 0j 一 zi)ci， 


元 = (= 2 有)， 


于 是 ， 点 也 测 的 边际 误 郑 为 土 5 -s(2 - 情 - 1)6"A， 即 在 re 处 的 区 间 预 测 为 
(3 一 王 -(a -六 Do7Ay30+ 旺 -sa -六 -TDa*A)， 
即 
卜 不 内 只 关 
P{320- 忆 - 有 人 一 声 -135 A<30S + 二 一 引 人 一 声 一 1)g A} 23z1-u. 


当 已 较 大 ， TO (= 1 2,… 力 ) 时 ， 可 取 入 三 1 来 简化 计算 . 关于 这 部 分 内 容 的 详细 
讨论 参见 文献 [12] ， 


6.2.5 最 优 回归 方程 的 选择 


在 多 元 线性 回归 东 型 的 应 用 中 ， 模 型 的 假定 条 伴 往 往 不 能 满足 ， 这 一 点 会 体现 到 回 
归 方程 的 显著 性 检验 结果 中 . 因此 ,如何 通过 自 变 量 的 筛选 以 提高 回归 方程 的 显著 性 以 
至 找到 最 优 回 光 方 程 是 人 们 关心 的 问题 ， 

什么 是 最 优 回归 方程 ? 这 在 理论 上 尚 无 一 个 明确 的 标准 , 但 是 ,在 选择 所 谓 的 最 优 
回归 方程 时 ， 下 面 几 点 应 予 考虑 ， 

二 变 景 完备， 回归 方程 中 尽 可 能 包含 对 固 变 量 有 实际 影响 药 自 变量 ; 

@@ 模型 从 简 ， 回 归 方 程 中 所 包含 的 自 变量 的 个 数 尽 可 能 少 ; 

坊 充分 拟 合 , 回归 方程 的 剩余 方差 尽 可 能 小 ， 

显然 ， 这 几 点 在 实践 中 可 能 出 现 * 跷 跷 板 " 现 象 , 因此 ,根据 统 计 分 析 和 问题 的 实际 
背景 求 得 某 种 平衡 才 是 最 优 回归 方程 概念 的 实质 . 单 从 统计 分 析 的 角度 ， 人 们 常用 的 选 
择 最 优 回 归 方 程 的 方法 是 逐步 回归 法 , 方法 的 操作 要 点 如 下 ， 

是 根据 问题 所 属 专业 领域 的 理论 和 经 验 提出 对 因 变 量 可 能 有 影响 指 所 有 自 变量 ; 

加 计算 每 一 个 自 变量 对 因 变 量 的 相关 系数 ， 按 其 绝对 值 从 大 到 小 排序 ; 

二 取 相关 系数 绝对 信 最 大 的 那个 自 变量 建立 一 元 线性 回归 寞 型 ， 检 验 所 得 回归 方 
程 的 显著 性 ， 若 检验 表明 回归 效果 显著 则 转 入 针 , 若 检验 表明 回归 效果 不 显著 则 停止 奸 
模 : 
昌 进行 变量 的 追加 、 别 除 和 回归 方程 的 更 新 操作 
若 检 验 表 明 回 妇 效 果 显 著 ， 则 按 相 关系 数 绝对 值 由 大 到 小 的 顺序 逐一 将 相应 的 自 恋 
量 引入 回归 方程 ; 每 引入 一 个 新 的 自 变量 ， 对 新 回归 方程 中 每 一 个 自 变 量 都 要 进行 显著 
性 检验 ， 
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若 检 验 表 明 回 归 效 果 不 显著 ， 则 日 除 对 因 变 量 影响 最 小 的 自 变量 ， 葛 新 回归 方程 ; 
对 更 新 后 的 回 妇 方程 中 的 每 一 个 自 变 量 仍 要 进行 显著 性 检验 、 噜 除 、 更 新 ,直到 回归 方 
程 中 的 每 一 个 自 变 量 都 显著 为 止 ， 再 引入 前 面 未 曾 引入 的 自 变量 ， 

依 此 类 推 ， 真 到 无 法 别 除 已 经 引入 的 自 变量 也 无 法 引入 新 的 自 变 量 为 止 . 

和 需要 指出 的 是 ， 和 逐步 回归 法 不 能 保证 得 到 真正 的 最 优 回 蚂 方 程 ， 但 此 法 是 计算 量 较 
小 、 预 测 效果 较 好 、 有 工具 软件 支持 、 应 用 最 多 的 一 种 方法 . 另外 ,逐步 回归 法 受 检验 
的 显著 性 水 平 影响 较 大 ，e 较 大 将 会 有 较 多 的 自 变 量 引入 回归 方程 ，x 较 小 将 会 导致 
一 些 重要 的 自 变 量 被 噜 除 ， 

MATLAB 提供 了 两 个 用 逐步 回归 法 建立 多 元 线性 回归 煤 型 的 郑 数 stepwisefit 和 
stepwise， 这 两 个 函数 的 功能 是 一 样 的 ,前 者 是 逐步 回归 法 建 模 的 集成 命令 ， 使 用 者 只 需 
给 出 必要 的 输入 参数 ， 调 用 这 一 画 数 将 自动 完成 建 模 工作 , 返回 所 谓 最 优 问 归 方程 的 相 
关 信 息 ; 后 者 是 逐步 回归 法 建 模 的 交互 式 圈 落 环 境 创 建 指令 ， 

下 面 简要 介绍 stepwisefit 函数 的 使 用 方法 ，stepwise 函数 的 使 用 方法 参见 附录 了， 

stepwisefit 范 煞 完整 的 调用 格式 是 

[b, se,Pval, inmodel,， stats, nextSstep, history] = 

SepWisefit(XT, “Paranl” valuesl，“Earan2” value2 ， .，,) 
其 中 ， 输 入 参数 

和 是 户 个 自 变量 的 = 个 观测 值 的 ax 尹 和 矩阵 . 

y 是 因 变 量 的 * 个 观测 值 的 ax1 向 量 . 

“Paramk "是 第 个 引用 参数 ，valuek 是 其 取 值 ， 遂 常 可 以 缺 省 . 这 里 只 介绍 3 个 可 
能 会 用 到 的 引用 参数 ， 

“penter "设置 回归 方程 显著 性 检验 的 显著 性 概率 上 限 ， 缺 省 设置 为 0.05; 

“premove "设置 回归 方程 显著 性 检验 的 显著 性 概率 下 限 ， 缺 省 设置 为 0.10; 

“display "用 来 指明 是 否 强制 显示 建 模 过 程 信息 ， 取 值 为 on"( 显 永 ,， 缺 省 设 低 ) 和 
“off《 不 显示 ). 

输出 参数 

b 是 模型 系数 . 

se 是 模型 系数 的 标准 误差 ， 

pvwal 是 显著 性 检验 各 个 自 变量 的 显著 性 概率 . ， 

inmodel 是 各 个 自 变量 在 最 终 回归 方程 中 地 位 的 说 明 (1 表示 在 方 稳 中 ,0 表示 不 在 
方程 中 ) 

stats 是 一 个 构架 数组 ,包括 ， 

souree: 建 模 方法 的 说 明 ，'stepwisefit' 表 示 逐 步 可 归 法 ; 
dfe: 最 优 回归 方程 的 剩余 自由 度 ; 
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家 5.5 水 泥 中 的 化 学 成 分 含量 与 水 泥 凝 园 时 的 故 热 量 数 据 
序号 1 工 3 将 3 宁 4 了 
1 了 2 各 的 给 .5 
2 1 29 15 3 74.3 
了 1 56 吕 访 104.3 
母 1 3 名 47 37.6 
相 了 3 提 3 55.9 
丰 1 55 多 这 二 0. 之 
? 3 ?1 17 折 102-7 
8 1 31 22 44 .5 
多 了 他 蕊 2 他 .1 
功 21 447 4 站 115.9 
11 1 4 科 23 34 呈 3 .8 
1]2 11 的 9 过 二 .3 
13 10 的 多 二 109.4 





试用 逐步 回归 法 求 出 了 对 zi, ziyzs 和 zy 的 最 优 回归 方程 ， 

此 例 选 自 MATLAB 系统 帮助 ， 数 据 保 存在 hald. mat 文件 中 ，ingredients 为 自 变量 ， 
heat 为 因 变 量 ， 

1 日 蛋 大 

1oag ha]l 人 

[了 ，sey， Bval，inmodel，stats， naxtstep history] = Stepnrisetit (ringecetdients， 
heat Penter ,站 .10， display” ”OoFE7 ) 7 

inmode1 bo0 = stats.intercept,b 要 自 变量 的 东 选 和 横 型 条 数 估 计 信 息 

MLLP = stats,pval，rase = StatSs.rBSse 多 回归 方程 显著 性 整体 检验 信息 

?= stats,PVRL 年 回归 方程 显著 性 分 别 检验 信息 


上 述 指令 的 运行 结果 是 ， 
inmodel = 

1 1 0 0 
二 = 

52.5773 
二 = 

1.4683 

0.6623 

0.2500 


一 0.2365 
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4.4066e 一 009 
rmse = 


2.4063 


0.0000 
0.0000 
0.2089 
0.2054 


结果 表明 ， 景 优 回归 方程 为 ?= 52.5773 + 1.4683z) + 0.6623z,， 回 归 方 穆 显 车 性 
整 避 检 验 和 分 别 检 验 均 为 高 度 显著 ， 模 型 标准 误差 估计 为 2.4063. 


6.3 侍 最 小 二 乘 回归 分 析 


经 典 狗 元 线性 回归 分 析 (MLR) 是 研究 变量 之 间 相 关 关 系 的 基本 方法 . 但 是 ， 于 面 两 
个 问题 制 的 着 其 应 用 的 效能 : 一 是 样本 容量 要 求 很 高 ， 一 般 应 大 于 30 或 大 于 自 变 量 数 
的 5 一 10 倍 ; 二 是 消除 变量 间 多 重 相关 性 很 难 . 若 在 变量 之 间 存 在 严重 多 重 相关 性 , 将 
对 回归 建 模 与 模型 分 析 工 作 带 来 如 予 危害 . 

和 在 自 变量 间 存 在 严重 多 重 相关 性 的 情况 下 , 将 造成 回归 资料 矩 隆 的 严重 病态 广 ， 
进而 使 模型 参数 的 最 小 二 乘 估计 失真 . 回归 系数 的 估计 方 盖 将 随 着 自 变量 之 癌 相 关 程 度 
的 不 断 增强 而 迅速 扩大 ,回归 系数 的 估计 值 对 样本 数据 的 微小 变化 变 得 非常 敏感 ， 回 归 
系数 估计 值 的 稳定 性 将 变 得 很 盖 . 

仿 在 自 变 量 高 度 相关 的 条 件 下 ,用 最 小 二 乘法 得 到 的 回归 模型 其 回归 系数 的 物理 
会 义 很 难 解释 . 许多 从 专业 知识 上 看 似乎 是 十 分 重要 的 变量 ,其 回归 系数 的 取 值 变 得 微 
不 足 道 ,甚至 还 会 出 现 回归 系数 的 符号 与 人 们 的 实际 概念 完全 相反 的 现象 ， 

@@ 存在 严重 的 多 重 共 线性 影响 时 ， 回 妇 系 数 的 统计 检验 将 难以 通过 ， 

回归 建 模 过 程 中 必须 要 解决 多 重 共 线性 问题 , 常见 的 方法 是 用 逐步 回归 法 来 进行 变 
莉 的 筛选 ， 去 掉 不 太 重 要 的 相关 狂 变 量 , 然 面 , 逐步 回归 法 存在 下 列 问 题 ; 一 是 缺乏 对 
讨 基 间 多 重 相关 性 进行 判定 的 十 分 可 谷 的 检验 方法 ; 二 是 删除 部 分 多 重 相关 变量 的 做 法 
常 导致 增 大 模型 的 解释 误 益 , 将 本 应 保留 的 系统 信息 会 弃 ,， 使 得 接受 错误 结论 的 可 能 以 
及 作出 错误 决策 的 风险 不 断 增长 ， 

在 克服 变量 多 重 相关 性 对 系统 回归 建 模 干扰 的 努力 中 ，1983 年 ， 瑞 典 的 S,Wold 和 
C.Aibano 等 人 提出 了 偏 最 小 二 乘 回 归 分 析 (PLS) 方 法 ， 它 开辟 了 一 种 有 效 的 技术 途径 ， 
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在 处 理 样本 容重 小 、 解 释 变量 个 数 多 、 变 量 冯 存 在 严重 多 重 相关 性 问题 方面 具有 独特 的 
优势 并且 可 以 同时 实现 回归 建 模 、 数 据 结构 简化 以 及 两 组 变量 间 的 相关 分 析 ， 


6.3.1 偏 最 小 二 乘 回归 方法 的 数据 结构 与 建 模 思 想 


设 有 9 个 因 变 量 几 ,ya，…, 为 与 尹 个 自 变 量 xi xz,…,xi， 为 了 研究 因 变 量 与 自 变 
着 的 统计 关系 ,观测 了 > 个 样本 点 ， 由 此 分 别 构 成 了 自 变量 与 因 变 量 的 “样本 点 X 变量” 
型 的 数据 矩阵 ， 记 为 

旦 二 (mxs 二 (riy x2， 相 | 
和 
y= (ss 

PLS 方 法 在 建 横 过 程 中 采用 了 信息 综合 与 和 选 技术 ,不 直接 考虑 因 变 量 系 统 Y 对 
自 变量 系统 X 的 回归 建 模 ， 而 是 从 自 变量 系统 X 中 逐步 提取 各 个 对 自 变量 系统 区 和 因 
变量 系统 Y 都 具有 最 佳 解释 能 力 的 新 综合 变量 1 …, 上 (mm 所 加 )， 亦 称 之 为 主 成 分 首 
先 建立 站 对 主 成 分 6 …， 杷 的 MLR 回归 方程 ， 然 后 还 原 为 交 关于 原 自 变量 系统 zi， 
xz2 tp 的 PLS 略 归 方程 ， 其 中 下 =1,2,…，9. 

PLS 方法 的 关键 性 技术 是 提取 主 成 分 ， 基 本 思想 如 下 ， 

第 一 步 ， 分 别 在 二 和 Y 中 提取 第 一 主 成 分 三 和 ai， 并 且 要 求 ; 

加 主 成 分 的 代表 性 ,与 和 mi 应 尽 可 能 大 地 携带 各 自 的 变量 系统 中 的 变异 信息 ; 

加 主 成 分 的 相关 性 ,六 和 zi 的 相关 程度 能 够 达到 最 大 , 即 对 因 变 量 系 统 有 很 强 
的 解释 能 力 ， 

这 两 个 要 求 表 明 ，PLS 方法 主 成 分 的 提取 同 主 成 分 分 析 中 主 成 分 的 提取 既 有 相似 之 
处 (代表 性 要 求 )， 又 有 不 同 ( 相 关 性 要 求 ) . 

第 二 步 ， 在 第 一 个 主 成 分 刀 和 zi 被 提取 后 ， 分 别 实施 

名 各 自 变 量 对 自 变量 系统 第 一 主 成 分 的 回归 ( 即 用 # 表示 ). 

四 各 因 变 量 对 自 变 量 系统 第 一 主 成 分 的 回报 ( 即 用 表示 Y)， 

如 果 回 归 方程 已 经 达到 满意 的 精度 ， 则 算 法 终止 ; 否 则 ,将 利用 被 5 解释 后 的 残 
余 信 息 以 及 Y 被 上 铮 释 后 的 残余 信息 进行 第 二 轮 的 成 分 提取 . 如 此 往复 ,直到 能 达到 
一 个 较 满意 的 精度 为 止 ， 


6.3,2 偏 最 小 二 乘 回 归 方 法 的 算法 步骤 


首先 要 进行 预备 分 析 ， 目 的 是 判断 自 变 量 ( 因 变 量 ) 是 否 存在 多 重 祖 关 性 ， 判 断 因 变 
量 与 自 变 最 古 否 存在 相关 关系 ， 进 面 决定 是 否 需 要 采用 PLS 方法 建 横 .具体 计算 方法 
是 : 记 殖 阵 书 = (X,Y),， 求 2 的 各 列 数据 之 间 的 简单 相关 系数 ;然后 ， 按 下 列 步 观 建 立 
偶 最 小 二 乘 亲 归 方程 ， 
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5.3.2.1 标准 化 原始 数据 
标准 化 后 的 数据 算 阵 记 为 Bo = (ev)xs 和 oo=( 户 ) sx 其 中 


= 2 2 (6.) 
S 
万 == 的 (一 12 了 =1 ,2,…，9)， (6.2) 


式 (6.1) 和 (6.2) 中 , 元， 分 别 为 矩阵 夺 与 的 第 ; 列 数据 的 平均 值 ; sr ，sy 分 别 为 
矩阵 X 与 了 的 第 ; 列 数据 的 标准 卷 ， 


6.3.2.2 生成 分 提取 


(1) 第 一 轮 主 成 分 提取 
求 答 阵 互 | FoF0 允 0 的 最 大 特征 值 所 对 应 的 单位 特征 向 量 wj， 得 自 变量 的 第 工 个 主 


成 分 
二 五) 信 ] ， 
求 矩阵 Fo 忆 , 玉 gu 的 最 大 特征 值 所 对 应 的 单位 特征 向 量 ci， 得 因 变 量 的 第 1 个 主 成 分 
天 二 下 0C1. 
求 残 差 矩阵 
;一 吾 0 一 三 Pi， 《6,3) 
下 | 一 下 下 Fr 《6.4) 


到 0 
式 (6.3) 趾 = 一 2 [ ?和 式 (6.4) 中 站 = 


在 PLS 方 法 中 , 称 wi 为 模型 效应 权重 ，e; 为 因 灾 量 权重 ，p 为 模型 效应 载荷 量 . 
(2) 新 一 轮 主 成 分 提取 
令 Eo= El，F%= Fi， 回 到 (1)， 对 残 差 矩 阵 进行 新 一 轮 的 主 成 分 提取 和 回归 分 析 . 
设 第 到 步 的 计算 结果 为 


和 三 丁 1Wi (6.5) 
了 一 下 1 。 《6.6)》 
下 = 瑟 -1 一 机 Bi 、 (6.7) 
可 = 到 | 一 丰 关 ， (6.8) 


不 
上 
式 (6.5) 至 (6.8) 中 , 请 = 二 2， ， 形 委 rank( 卫 0)， 六 = - ， 国 . 


总 而 
(3) 主 成 分 所 到 的 终止 准则 
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PLS 方法 不 需要 选用 所 有 的 主 成 分 建 模 ， 而 是 采用 坊 尾 的 方式 ， 即 仅 选 择 前 mr 个 
主 成 分 三 , …, 志 ， 就 可 以 得 到 一 个 预测 性 能 较 好 的 模型 . 因此 , 在 主 成 分 提取 的 每 一 轮 
计算 中 , 都 要 对 是 否 得 到 了 足够 多 的 主 成 分 进行 判断 . 

判断 准则 常用 的 有 交叉 有 效 性 准则 和 复 测 定 系数 准则 ， 

定义 6.7 ( 变 叉 有 效 性 ) 称 


为 主 成 分 志 关于 因 变 量 系统 Y 的 交 及 有喜 性 . 
上 式 中 各 参数 的 意义 如 下 ,PRESS, 是 从 所 有 + 个 样本 点 中 会 弈 某 个 样本 点 ti 
=1,2,…,?#) 之 后 ,用 剩余 的 2 -1 工 个 样本 点 氢 合 出 含 站 个 主 成 分 的 回归 方程 ， 再 对 


xz)(i=1,2,…a) 点 进行 预测 的 预测 误差 平方 和 .更 详细 一 点 。 记 夕 ， ,为 y 在 樟 本 
点 zC 〇 上 的 预测 值 , PRESS， = >\[y，- 久 ， 0 了 为 y 的 预测 误 益 平方 和 ， 则 PRESS， 


- 六 PRESS。 就 是 Y 的 预测 误 革 平方 和 
SSw -9 是 用 所 有 n 个 桩 本 点 执 合 出 的 含 4 -1 个 主 成 分 的 回归 方程 的 拟 合 误 基 平方 


积 . 更 详细 一 点 ， 沁 ?w ar 为 多 在 样本 点 zi 上 的 氢 侣 悄 ， SS -ni 王 > 一 
# 二 了 


让 
yo 为 切 的 氢 合 误差 平方 和 ， 则 SSu_) = 》 SSu_uy 就 是 Y 的 拟 合 误差 平方 和 ， 


交叉 有 效 性 是 对 新 增 主 成 分 能 否 对 模型 的 预测 功能 有 明显 改进 的 判断 指标 . 
若 Qi 疡 1-0.95 =0,0975$， 则 认为 主 成 分 的 边际 贡献 是 显著 的 ， 
定义 6.8 ( 复 测 定 系 数 ) 称 


上 


2 | 他 >x | 关门 


上 Q: 一 
， | 





为 自 变量 系统 X 被 据 取 的 变异 信息 量 . 称 
站) 


1 
为 回归 方程 的 复 测 定 系数 . 
复 测定 系数 表示 所 提取 的 主 成 分 的 可 解释 变异 信息 占 总 变异 的 百分比 ， 
当天 = zm， 复 测定 系数 R。 的 值 足够 大 时 ， 可 在 第 m 步 终 止 主 成 分 的 提取 计算 . 通 
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常 民 320.85 即 可 ，， 
6.3.2.3 建立 回归 方程 

(1) 建立 关于 主 成 分 的 MLR 回归 方程 

求 出 Bu 在 碧 ，… 本 上 的 MLR 回归 方程 

= 和 FT 二 tr 了 二 十 二 十 如， .9 

(2) 变换 为 关于 标准 化 变量 的 PLS 回 妇 方程 

将 二 = 恒 _iWi= Bowy (=12…， 吏 ) 代 入 方程 (6.9)， 得 0 关于 Bu 的 PLS 回归 
方程 


F0= 开 gpy ri 十 吾 JW2 rr 十 十 下 or 十 加 《6.10) 


其 中 7 二 Ta 一 Wi 一 1 2 了》 工 为 单位 掉 阵 ， 
旧 工 
《3) 还 原 为 天 于 原始 变量 的 PLS 回归 方程 
将 方程 (6.10) 还 原 成 关于 原始 变量 的 PLS 回归 方程 


二 2 328 
3 一 | 捉 一 >》 al 雪 十 ol 这 (有 一 于 ,2， 9 9 
is ii 


其 中 mm 是 矩阵 www， = > wyr7 的 第 上 个 列 向 基 ，w, 是 的 第 ; 个 分 量 . 


6.3.3 仿 最 小 二 乘 回 归 方 法 的 辅助 分 析 


PLS 方法 除了 前 述 建 模 技 术 , 还 包括 PLS 辅助 分 析 技 术 , 可 以 在 获得 一 个 更 为 台 理 
的 回归 模型 的 局 时 ， 完 成 一 些 类 似 于 主 成 分 分 析 和 典型 相关 分 析 的 研究 内 容 ， 提供 更 加 
丰富 、 识 入 的 系统 信息 ， 
6.3,3,1 自 变 量 和 因 变 量 之 问 的 相关 关系 分 析 

在 一 元 回归 分 析 中 , 为 了 判定 上 则 变量 和 因 变 量 之 间 的 关系 ,经 常 采 用 散 点 图 来 作 直 
观 的 分 析 ， 简 单 而 有 效 ,这 种 方法 在 多 元 回归 分 析 中 遇 到 困难 ; 多 维 数据 构成 了 一 个 起 
平面 ， 难 以 作 直 观 观察 ; 各 自 变 重 问 相互 关联 ， 不 能 将 变量 简单 地 分 割 开 来 分 析 ， 

PLS 方法 的 刁 /a 平面 图 功能 使 这 一 点 成 为 可 能 ， 

在 PLS 方法 中 ， 自 变量 集合 X 和 因 变 量 集合 Y 之 间 的 相关 关系 可 以 通过 上 和 
的 相关 关系 得 到 反映 ,因此 ,绘制 以 为 机 坐标 ，a 为 纵 全 标的 /za 平 而 图 , 绘 出 第 
一 主 成 分 偶 对 (6 zi) 的 观测 料 本 散 点 图 . 如 果 所 有 样本 点 ( 昌 (本 (但 ) (=1,2，…， 
2) 在 图 中 的 排列 近似 于 一 条 直线 ， 则 说 明 苇 和 Y 之 间 存 在 着 较 强 的 相关 关系 ,这 时 采 
用 PLS 方法 建立 了 对 天 的 线性 模型 才 会 是 合理 的 ， 
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6.3.3.2 主 成 分 对 变量 的 解释 能 力 的 评价 

在 PLS 计算 过 程 中 ,要 求 所 提取 的 自 变 量 主 成 分 太 尽 可 能 多 地 代表 疼 的 变异 信 
息 ， 尽 可 能 与 Y 相关 联 ， 解 释 Y 中 的 信息 . 为 了 测量 二 对 X 和 了 的 解释 能 力 ， 特 给 出 
如 下 定义 . 

定义 6.9 [ 自 变量 的 主 成 分 对 自 变量 系统 的 各 种 解释 能 力 ) 

@ 称 主 成 分 点 写 自 变量 z 的 简单 相关 系数 的 平方 


RdCxii) 之 产 (xii) 


为 上 对 某 个 自 变量 x 的 解释 能 力 . 
四 称 
Rd( 导 ij ) = 二 Rd(xst) 
为 加 对 自 变量 系统 X 的 解释 能 力 . 
二 称 


Rd ta》 = y Raxin) 
上 一 工 
为 站 对 某 个 自 变量 *， 的 轩 计 解释 能 力 . 
和 称 
恨 d 天 ;有 人)》 = yVRd(xie ) 
由 亚 二 


为 三 ,ta 扣 对 自 变 量 系统 三 的 暴 计 解释 能 力 . 
定义 6.10 { 息 变量 的 主 成 分 对 因 变 量 系统 的 各 种 解释 能 力 ] 
中 称 主 成 分 点 与 因 变 量 ” 的 简单 相关 系数 的 平方 


Rd 四 和) 天 ( 有 和) 

为 去 对 某 个 因 变 量 》 的 解释 能 力 . 

四 称 

RdtyY; 丰 ) 一 二 Rd( 世 ;8 

为 点 对 因 变 量 系统 了 的 解释 能 力 ， 

全 称 

及 其 二 RaCy in ) 
五 王 1 


为 1 12) 四 ， 对 某 个 因 变 量 儿 的 累计 解释 能 力 . 
电 称 
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RdCYS 元 > Ra(Yit) 
为 与 ,和 对 因 变 量 系统 的 黑 计 解 苹 能 力 ， 
6.3.3.3 自 变量 对 因 变 量 系 统 的 解释 能 力 


PLS 方法 中 ， 自 变量 对 因 变 量 的 解 友 能 力 是 以 变量 投影 重 夏 性 指标 (VIP) 来 测度 的 ， 
定义 6.11 ( 自 变量 对 主 成 分 的 边际 贡献 ) 称 





RD Rd(Y5 和 ) mo 

为 自 变 量 *) 对 主 成 分 如 的 边际 贡献 . 其 中 ，rom 是 主轴 mm 的 第 7 个 分 量 ; Rd(Y; 所 )， 

Rd(Y 6 ) 分 别 是 反对 幸 的 解释 能 力 生 ,5 …， 避 对 站 的 累计 解释 能 力 ， 
VEP， 定义 式 的 意义 是 基于 这 样 一 个 事实 , 由 于 x 对 Y 的 解释 是 通过 加 来 传递 的 ， 

如 果 扎 对 YY 的 解释 能 力 很 强 , 而 *; 在 构造 问 时 又 起 到 了 相当 重要 的 作用 ， 则 xi 对 Y 

药 解 释 能 力 就 被 视 为 很 大 , 也 就 是 说 ， 如 果 在 Rd(Y; 氮 ) 值 很 大 的 所 成 分 上 ，rzow 取 很 大 

的 值 ， 则 xz 对 解释 Y 就 有 很 重要 的 作用 . 


另外 , 容易 证 明 > VIP; = 请 ， 所 以 ， 对 于 个 自 变量 器 (= 二 2,…,p)， 如 果 它 


们 在 解 Y 时 的 作用 都 相同 , 则 所 有 VIP; 均等 于 1; 否则 ， 对 于 VIP;(>1) 很 大 的 zi， 
它 在 解释 因 变 量 料 时 就 有 更 加 重要 的 作用 . 

希望 深入 了 解 PLS 建 模 理 论 与 方法 的 读者 可 参阅 文献 [12] 和 [13] 

【 例 6.5]】 为 研究 辽宁 省 教育 投入 与 产业 发 展 之 间 的 相关 关系 ,收集 了 如 表 6.6 所 


VIP; = 





示 的 数据 资料 

家 6.6 辽宁 省 1984 一 2005 年 教育 投 人 与 经 济 产 出 数据 资料 

年 份 工 1 工 : 工 ; 工 4 近 2 Ta 了 3 

1984 122 15612 65441 512065 73961 30 .4 268 .2 89 ,各 
1985 584 17495 522327 看 89598 102450 了 4,9 328.1 115. 右 
1986 670 20583 517410 704016 123383 92.9 357.8 154.6 
1 喇 7 1193 29304 349709 80861 134332 109.4 呈 17 ,人 102 .和 
1 988 1929 3f552 丘 5839 器 37753 工 有 5 人 7 141 .2 492 ,5 240 .和 
1989 1763 32708 98834 593257 194395 141 .4 345 .1 316.9 
1990 1677 33768 3580075 5916S4 21077 108 .6 540.8 353.3 
1991 1500 335 斩 71S6 660343 229033 180 .如 590.1 2 
1092 1245 35208 733N0 司 5995 254712 194.6 741 .9 536.5 
1993 1307 33615 372612 830759 305120 6060. 1039 .3 710.8 
1994 1273 35923 606148 636786 398399 319.0 1259.1 883.8 





1995 1425 44072 的 5387 672432 439517 392 .2 139 .0 1D11.2 
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续 志 6.6 

年 份 L1 工 : 了 3 了 捧 了 Y: 了 3 
96 | 51068 611379 576164 4961 缴 474,1 1537.7 1145.9 
1997 2316 49591 666386 500252 546883 474. 174 生 9 1364.2 
1998 2126 47557 7243 岂 554992 5627710 531.5 1855.2 1459.1 
1999 2426 49954 658165 644042 全 2559 520.8 2001.5 1649.4 
2000 2910 49834 587000 722325 760719 503,4 234.4 1821.2 
2001 2971 60271 623975 679852 855043 544,4 2440.5 2048.1 
2002 3674 72791 709233 ”022536 9 委 1450 590.2 2609.9 2258.2 
2003 5027 98908 788473 ”595278 1108785 615.8 2898.9 2487.9 
2004 672 115889 792228 511757 1387080 798.4 3061.5 2812.0 
2005 9342 144984 815905 4090 的。 1629956 882.4 3953.3 3173.3 


表 6.6 中 数据 义 自 + 辽宁 统计 年 鉴 2006), 各 变量 的 意义 及 数量 单位 如 下 ， 

名 教育 投入 水 平 的 指标 : 

二 一 一 研究 生 教 育 程度 (硕士 及 博士 ) 劳 动力 数 (单位 ; 人 )i 

工 :一 一 高 等 教育 程度 (大 学 本 科 及 专科 ) 劳 动力 数 (单位 人 ); 

了 3 一 一 中 等 教育 程度 (高 中 及 中 专 ) 劳 动力 数 (单位 , 人 ); 

L4 一 一 初等 以 下 教育 程度 (小 学 及 文盲) 劳动 力 数 ( 单 位 ， 人 ); 

玫 一 一 教育 的 财政 投入 (单位 ; 万 元 )， 

多 经 济 产 出 的 指标 ; 

Yi 一 一 -第 一 产业 { 包 括 林 业 、 收 业 、 痊 业 等 ) 产 出 值 (单位 : 亿 元 ); 

Y: 一 -第 二 产业 (包括 工业 和 建筑 业 ) 产 出 值 (单位 : 亿 元 ); 

7 一 一 第 三 产业 (包括 流 道 类 的 交通 运输 业 、 邮 电 通 讯 业 、 商 业 饮食 业 、 物 资 供销 
和 仓 情 业 及 金融 、 保 险 业 、 地 质 普 查 业 、 房 地 产 、 公 用 事业 、 居 民 服 务 业 、 旅 游 业 、 咨 询 
信息 服务 业 和 各 类 技术 服务 业 ， 等 等 ) 产 出 值 (单位 ; 亿 元 )， 

建 模 分 析 如 下 . 

{1) 客 重 相关 性 诊断 

名 计算 自 变 量 与 因 变 量 之 间 的 相关 系数 ， . 

load j 了 trjjec 5 参 先 编写 数据 文件 jytrjjcc.mat， 并 保存 到 当前 工作 路 仔 下 

cr = Cortrcoet( jytrjjce); 革 计 并 变量 之 间 的 相关 素数 

计算 结果 整理 见 表 6,7， 
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表 6,.7 办 变量 与 自 变 量 之 间 的 相关 系数 

了 工 ; 工 : 开 3 工 ， 乓 2 YY 了 
工 1.0000 0.9847 0.8737 -0.4847 0.9447 0.8643 0.8906 0.8895 
工 : 1.0000 0.9117 -0.4944 09695 0,.9088 0,.9250 0,9278 
工 3 ， 1.0000 一 人 .0196 0.8944 0.894 0.8776 0. 航 劝 
I 1.0000 -0.4177 -0.4436 -0.3751 “一 0.3803 
政 1.0000 0.9635 0.9833 0. 铝 计 
Yi 1.0000 0.9827 0.9818 
了 1.0000 0.9961 
Ti 1.0000 


由 表 6.7 可 以 看 出 : 自 变 量 之 间 的 相关 系数 最 高 达 0.9847， 表 明 自 变量 之 河 存 在 严 
重 的 自 相 关 性 . 注意 ， 初 等 以 下 教育 程度 劳动 力 数 与 其 他 自 变量 之 间 呈 负 相关 关系 ， 

因 变 量 与 自 变 量 之 间 的 相关 系数 最 高 过 0.9%871， 表 明 自 变量 系统 与 因 变 量 系 统 之 
部 在 较 高 的 相关 人 性. 注意 : 研究 生 和 高 等 、 中 等 教育 程度 劳动 力 数 以 及 财政 投入 与 三 
大 产业 产 出 之 间 存 在 着 明显 的 正 相 关 关 系 ,而 初等 以 下 教育 程度 劳动 力 数 与 三 大 产业 产 
出 之 间 存 在 着 较 弱 的 负 相关 关系 ， 

二 建立 普通 最 小 二 生 回 归 方 程 ， 

原始 数据 标准 化 ， 得 到 则 变量 的 标准 化 数据 系 阵 B, 和 因 变 量 的 标准 化 数据 插 阵 
E0， 再 建立 两 者 之 避 的 多 重 (多 因 变 量 ) 多 元 线性 回归 方程 (MLR). 

了 到 = standfjytrjjcef: ，1: 5)); 对 标准 化 自 灾 量 数据 

0 = standfjytrjject : ，6: 8)); 争 标 准 化 因 变 量 数 据 

MILLR = inv((E0“ * RO)) (BO 关 BO); 儿 估计 多 重 多 元 战 性 国 归 方程 条 数 

根据 上 述 计 算 结 果 ， 可 得 下 列 多 重光 元 线性 回 妇 方 稳 ， 

了 ui = 一 0.4171 好 0 一 0,1685 瑟 oo 十 0.18730 一 0.0578 五 0 + 1.32924 吾 ，， 
了 oz= 一 0.24108B0i 一 0.1647 古 op 一 0.0209 瑟 0 一 站 ,0071 瑟 9 + 1 ,3867 瑟 ，,， 
下 03 = 一 0,.2237 开 0 一 0.3039 如 om +0.1530 克 0 +0.02700 + 1.3674 瑟 ，， 
- 从 这 一 组 回归 方程 可 以 看 出 ， 三 大 产业 产 出 值 与 研究 生 教育 、 高 等 教育 嘉 然 负 相 
关 , 这 与 客观 事实 相 违 背 ， 也 与 框 关系 数 和 矩阵 中 得 到 的 结论 相悖 ， 

所 以 ,在 髓 变量 之 间 以 及 自 变量 与 因 变 量 之 间 存 在 复杂 的 相关 关系 时 ， 普 通 最 小 二 
乘 回归 方法 建立 的 模型 不 能 准确 地 反映 实际 情况 , 这 种 情况 下 下 采 用 偏 最 小 二 乘 回归 分 
析 方 法 建 模 . 

《2) 建立 伯 最 小 二 乘 辐 归 模型 

也 提取 所 有 可 能 的 主 成 分 . 
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1 eeBI 
Joe j7tzjjec 
X= jytzjjcect :id3:5) 
= jytrjjce(: 6:8)3 
芭 0 = Stand(X); 
有 = StandkY); 
其 = rankfBD); 
[W, CT,U,P,R] =Blsper(B0,P0); 和 提取 所 有 可 能 的 主 成 分 
罗 主 成 分 解释 能 力 分 析 
首先 ， 计 算 主 成 分 累积 复 测 定 系数 ， 
RR = PP1LSca( ,RED 天) 
上 述 指 令 的 运行 结果 是 ， 
ERR = 
0.8727 日.9209 0 .9739 .9870 站 ,9879 
计算 结果 表明 : 抽取 一 个 主 成 分 时 ， 回 归 方 程 的 复 测 定 系数 已 达到 87.27%; 抽取 
两 个 主 成 分 时 , 回归 方程 的 复 测定 系数 已 达到 22.09%; 等 等 , 通常 ， 系 统 信息 的 可 解 藉 
变异 达到 总 变异 的 8$% 即 可 认为 回归 方程 的 精度 已 达到 满意 效果 . 因此 , 根据 模型 从 简 
的 原则 ， 我 们 只 需 选 取 一 个 主 成 分 建 模 . 第 一 主 成 分 的 表达 式 为 
生 一 五 0oWil= 一 0,4694 开 0 一 日 ,4902 开 oo 一 0.4719 刁 ao 十 0.2128 玖 一 0.5208 五 |， . 
接 下 来 计算 主 成 分 的 信息 解释 能 力 ， 
[Rdx, RdX, Rdxt, Rdy, RdY, Rdst] = BlsrdfEO ,YYO,T,R) 
上 述 指令 的 运行 结果 是 ， 


0 .9421 0.0092 站 ,0444 .00137 0.0025 
00,9744 0.0310 站 .0083 0.0006 站 .0057 
0.9108 0.0054 0.0306 0.0530 0.0003 
04.3490 旭 ,6425 0.0046 0.0040 0.0000 
人 ,9335 0.0433 0.0080 0.0150 0.0001 


0.8220 0.1423 8.0192 0.0149 0.0017 
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日 .897 0.0252 0.0670 0.0104 0.0001 
0 ,8650 由 .0597 0.0415 0.0153 0.0018 
0.8728 0.0584 0.0493 0.0130 0.0009 


RdY = 
站 ,8650 0,.0478 0.0526 0.0129 0.0009 
RdYt = 
曲 ,9793 
对 上 述 计 算 结果 进行 简化 和 整理 ， 见 表 6.8， 
衣 6.8 主 成 分 二 和 口 对 变量 的 解释 能 力 
Rd 工 ; 工 : 工 ; 工 ， 民 Y 了 2 了 芷 荆 








0.9421 0.9744 0.9108 0.3490 有.9335 0.8573 08650 0.8728 0.3220 0.865 
0.0092 用 .0110 昌 0054 0.6425 0 和 .0433 ,0252 0.4597 0.0584 0.1423 及,0478 


从 表 6.8 中 可 以 看 出 ， 主 成 分 所 对 变量 工 ,, 工 ;， 工 ; 和 天 的 解释 能 力 均 相 当 强 ， 而 
对 工 : 的 解释 能 力 较 弱 ,因此 可 以 认为 握 是 由 变量 工 ,,L:,L; 和 天 综合 而 成 的 , 并 且 解 
释 了 上 原 目 变量 系统 到 .20%% 的 变异 信息 ， 对 原 自 变 基 系统 有 非常 好 的 代表 性 . 同时 ， 解 
释 了 虽 变量 系统 86.50% 的 信息 ， 对 四 变量 系统 的 贡献 很 大 . 而 第 二 个 主 成 分 上 主要 代 
表 的 是 变 其 工 ,， 对 原 自 ( 因 ) 变 量 系 统 信息 变异 的 解释 能 力 较 低 ， 

经 让 算 ， 当 增加 第 二 个 主 成 分 刀 时 ， 模 型 的 精度 没有 明显 的 改善 , 因此 ， 从 主 成 分 
的 信息 解释 能 力 的 角度 以 及 模型 从 简 的 原则 ， 只 选 一 个 主 成 分 建 模 是 适宜 的 . 

侠 考查 第 一 主 成 分 间 的 相关 性 ， 

绘制 和 Zu 图 直观 地 考查 第 一 主 成 分 向 的 相关 性 . 

CT = 了 1SotCor(T,I) 

上 述 指令 的 运行 结果 是 ; 

1.0000 0.9342 
0.9342 1.0090 

从 图 6.3 中 可 以 看 出 ， 自 变量 系统 与 办 变量 系统 第 一 主 成 分 间 的 相关 性 很 强 ， 适 合 
建立 线性 回归 模型 . 

电 求 PLS 回归 方程 的 系数 . 

先 求 标准 化 因 变 量 Fi，Fo，F; 关 于 主 成 分 二 的 经 验 回归 系数 ， 

TYCOEFT =R(: ，1 二 上 这 组 打数 序 于 plsper 函数 的 最 后 一 个 篇 出 变 重 民 中 

上 述 指令 的 运行 结果 是 : 

TCOEEE = 
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tu4 转 





图 6.3 所 /sa 散 点 国 


-0.4586 
一 日 ,46D07 
一 站 ,4627 
再 求 标准 化 变量 Fol，Foz，Fw 关 于 也 0 ， 了 wm， 了 6， 也 ,， 瑟 的 经 验 回 归 系 数 . 
SCORF8 = plsf1,5,W,P,R) 


上 述 指 令 的 运行 结果 是 ， 
SCOEFF = 
0.2153 0.2163 0.2172 
0.2248 0.2258 0.2269 
0.2164 0.2174 0.2184 
-0.0976 -0.0980 -0.0985 
0.2389 0.2399 0.2410 


最 后 求 原始 变量 Y1，Y7:，Y3 关于 工 ，L，， 工 ， 工 ，K 的 经 验 回 归 系 数 ， 
[CoEFY ,INTERCHP ] = 1siscoefE(X ,TY SCOREFF) 


上 述 指令 的 运行 结果 是 : 

COEFF = 
0.0242 0.1072 0. 0966 
0.0017 0.0074 0.0057 
0.0006 0.0027 0.0024 


一 上,0003 一 0.0015 -0.0014 
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0.0001 0.0006 0.0005 


ITNTRRCREP = 
一 17.9677 -233.0059 “ -388.8328 


根据 上 述 计 算 结 果 ， 写 出 各 个 阶段 所 建 回归 方程 如 下. 
0 关于 成 分 二 的 (MILR) 回 归 方 程 为 
下 or 一 一 个 .45865， 
oser1 有 天 一 0,46078， 
于 or1383 一 一 日 ,462781， _ 
将 是 = 卫 ,wi= 一 0.4694 瑟 -0.4902 瑟 om 一 0.4719 王 0 +0.2128 瑟 0 - 0.5208 了 代入 上 
面 的 三 个 方程 , 得 Po 关于 互 0 的 (PLS) 回 妇 方程 为 
osc0.2153 匹 0 +0.2248 尼 oo 二 0.2164 刀 0 一 0.0976o 二 0.2389 万 05， 
下 ppsz0.21630] 二 0.2258 五 0 十 0.2174 瑟 。， 一 0.09800 +0.2399 瑟 bs， 
下 sc0.2172 瓦 1 上 + 0,2269 瑟 0 十 0.2184 五 ,3 一 0.0985 瑟 0 十 0.2410 卫 5， 
由 逆 标 准 化 变换 ， 将 上 述 三 个 方程 还 原 为 原始 因 变量 关于 上 自 变 量 的 (PLS) 则 归 方程 为 
人 = -17.9677+0.0242 工 ;+0.0017L ;+0.0006Z; -0.0003 ,+10.0001 天 ， 


如 = -233.0059+0.1072 ;+0.00745， +0.0027 -0.0015L .+0.0006 开 ， 


人 = -388.8328+0.0966 工 ,+0.0067L ;+0.0024, -0.0014 工 ,+0.0005K. 


可 见 ， 所 建 的 问 归 方程 没有 出现 反 符 号 现象 ， 受 中 等 以 上 教育 的 劳动 力 人 数 、 财 政 
投入 与 经 济 的 产 出 都 是 星 正 相关 的 ， 只 有 初等 教育 劳动 力 人 数 (包括 文盲 ) 曙 负 和 相关 ,这 
与 相关 系数 符号 完全 一 致 . 

(3) 变量 投影 重要 性 分 析 与 模型 的 改进 ， 

下 而 从 变量 投影 重要 性 的 角度 分 析 回归 方程 中 自 变 量 对 因 恋 量 的 解释 能 力 ， 

VIP = plsvip(W RdY, RdYt,1) 

上 述 指 令 的 庆 行 结果 是 : 

VIP = 

0.9866 1.0303 口 .9918 站 .和 72 1.0946 

变量 投影 重要 性 指标 是 用 来 测 并 第 j 个 自 变 量 对 因 变 量 的 解释 能 力 的 . 因此 ， 从 预 
测 的 角度 ， 如 果 某 个 自 变量 在 解释 因 变 量 时 起 的 作用 很 小 , 则 可 以 考虑 章 去 这 个 变量 后 
重新 建 模 , 由 图 6.4 可 以 看 出 ，VIP4 明显 较 小 , 故 删 除 变量 工 , 重新 用 偏 最 小 二 委 同 归 
方法 建 模 ， 得 到 的 问 归 方程 为 


如 = -270.7+0.0260L|+0.0018L, +0.0006;+0,.0001K， 
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穴 重 检 素 重要 性 vi 图 





5.4 变量 投 彩 重型 性 YIP 


包 = -1374.79+0.1158L ;+ 0.00807L .+0.0029L ,+0.0006K， 


名 = -1416.1+0.10437 +0.0072L +0.002673+0.0005K， 


与 未 蜡 除 变 基 L 4 前 的 回归 方程 对 比 ， 发 现 方程 的 回归 系数 变化 很 小 . 深入 的 精度 
分 析 结 果 见 表 6.9. 





圳 6.9 改进 前 后 模型 应 用 效果 比 对 分 析 
Rdx Ray PRESS 
包含 工 , 的 模型 0.8220 站 .8650 8 5034 8.3149 


删除 工 的 模型 0,.9476 0.8893 6.9714 .420 


表 6.9 中 ,SS 值 表示 的 是 回归 方程 对 所 有 样本 点 的 拟 合 误差 平方 和 ,PRESS 值 表示 
的 是 预测 误差 平方 和 ,计算 公式 详 见 文 献 [13]. 由 表 6.9 可 知 ,， 删除 变量 工 , 后 的 模型 ， 
无 论 是 建 模 的 主 成 分 五 对 自 ( 因 )} 变 量 的 解释 能 力 Rdz(Rdy)， 还 是 氢 合 与 预测 效果 上 
都 有 很 明显 的 提高 , 因此 ， 基 于 VIP 对 自 变 基 筛 选 后 的 偏 最 小 二 梁 回 归 模 型 效果 更 佳 ， 

需要 强调 的 是 ， 册 除 工 , 的 模型 对 分 析 教 育 投入 与 经 济 产 出 两 者 之 间 关 系 来 说 意义 
并 不 是 很 大 ， 但 著 考 虑 对 辽宁 省 经 济 产 出 进行 短期 预测 ， 采用 该 模型 的 预测 精度 会 更 
高 . 

对 上 述 统 计 分 析 信息 的 次 人 解读 依 顿 更 多 的 教育 经 济 学 领域 的 专业 知识 和 和 经验， 已 

超出 本 书 的 范畴 . 

本 例 数据 处 理 所 用 MATIAB 偏 最 小 二 乘 回 归 建 模 函 数 均 为 自 定义 M- 函 数 ,函数 的 
渐 代 码 见 本 书 附录 人 ， 
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习题 各 


1. 表 6.10 数 据 有 是 讶 火 温度 zf 单位; 和) 对 黄 钢 延性 应 的 斌 验 嬉 果 ，?y 是 以 延 
伸 准 计算 的 ， 且 设 为 正 态 变量 求 ?9 对 工 的 样本 国 归 方程 ， 








表 6.10 
zj 300 400 500 600 700 800 
如 移 析 5 5 嫩 6 妈 


2. 某 健 雪 俱 乐 部 对 部 分 会 员 进 行 了 一 项 调查 ， 现 将 会 四 的 入会 时 间 { 了 ) 和 到 供 乐 
部 的 次 数 【X) 航 计 如 下 , 见 表 6.11. 








甫 6.11 
入 会 时 间 / 月 12 2 6 9 7 2 名 4 1 5 
健身 区 数 4 了 8 5 5 8 3 8 2 5 
斌 完成 下 列 问 题 ， 

(1) 画 出 教 点 图 ; 


【2) 建 主 适当 的 回归 方程 ; 

{3) 对 方程 进行 检验 ， 

3. 某 公 司 去 15 个 地 区 的 菜 种 商品 的 销售 量 f 音 位; 罗 ，1 罗 = 12 打 )》 和 各 地 区 人 
口 数 zif 单位: 千 人 )， 以 及 平均 每 户 战 收入 数 zz( 单 位 ; 元 ) 的 航 计 和 旗 料 见 表 6.12. 

表 6,12 




















求 ? 对 zl，z， 的 回路 方程 ， 并 根据 人 口 数 、 每 户 总 收入 数 预测 基地 区 药 销 售 量 ， 
4,，10 个 同类 企业 的 生产 性 固定 资产 价值 和 工业 总 产值 资料 如 表 6.13 所 示 . 
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表 6.1 
企业 编号 生产 性 固定 资产 价值 /万 元 工业 总 产 慎 / 万 元 
1 318 524 
2 980 1019 
3 200 638 
4 409 815 
5 415 913 
和 502 9%28 
7 314 605 “ 
8 1210 1516 
9 1022 1219 
10 1225 1624 
合计 6525 9801 
试 完 成 下 列 问 题 : 


(1) 说 明 两 变量 之 间 的 相关 方向 ; 

(2) 建立 回归 直线 方程 ; 

(3) 计算 估计 标准 差 ; 

《4) 估计 生产 性 国定 资产 价值 { 自 变量 ) 为 1100 万 元 时 总 产值 { 因 变量 ) 前 可 能 值 ， 
5. 某 公 司 采 全 了 市 场 上 办 公用 房 的 空间 率 和 租金 率 的 数据 , 表 6.14 是 选取 前 1 





个 城南 中 心 商 业 区 的 综合 空前 率 (单位 ;%) 和 平均 租金 率 ! 单 位 ;元 1m2) 指 数据 、 








衷 6.14 
地 区 编号 烷 台 空 闸 率 平 租 金 率 地 区 编号 综合 空 六 率 
1 21.9 18.54 功 6.6 
2 6.0 33, 确 革 15.9 
3 22.8 19.67 位 9.2 
4 18,1 21.01 13 19.7 
5 12.7 35. 的 芭 4 20.0 
6 14.5 19,41 芒 8.3 
了 20 .0 25.28 1 17 .1 





读 完 成 下 到 问题 : 
(1 用 横 轴 表示 空 闸 率 ， 对 这 上 数 据 画 出 散 志 图; 


(2) 这 两 个 变量 之 问 能 显示 出 什么 关系 吗 ? 

















平均 租金 率 
31.42 
18.74 
26.76 
27 12 
二 .20 
25.00 
好 . 知 


(3) 在 办 公用 房 的 综合 空 阅 率 已 知 时 ， 求 出 能 用 来 预测 平均 租金 率 的 回归 方程 ; 
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(4) 在 0.05 显著 性 水 平 下 检验 关 素 的 显著 性 ; 

{5) 个 计 的 回归 方程 对 数据 的 拟 合 好 吗 ? 请 作出 解 炎 ; 

《6) 在 一 个 综 会 空间 率 是 25 匆 的 中 心 商 业 区 ， 预 浏 该 市 场 的 期 望 租 爹 率 ; 
(7) 著 某 市 的 中 心 调 业 区 综合 空 阅 率 是 11,3 旬 ， 预 测 该 市 中 心 商 业 区 的 期 望 租金 
率 ， 

6. 某 公 司 的 管理 者 认为 每 周 的 收入 是 广告 曲 用 的 函数 ， 并 起 对 每 周 的 总 收入 ( 单 
位 : 千 元 ) 作 出 他 计 , 由 8 周 的 历史 数据 组 成 的 样本 如 表 6,15 所 示 ， 

囊 6.15 


每 周 的 总 收入 电视 广告 费用 / 干 元 报纸 广告 费用 /二 元 








斌 完成 下 列 问题 ; 

《1)》 将 电视 广告 费用 作为 自 变量 ， 建 立 回归 方程 ， 

《2) 将 电视 广告 电 用 与 报纸 广告 攻 用 作为 自 灾 章 ， 建 立 回归 方程 ， 

《3) 在 上 醒 建 立 的 个 计 的 回归 方程 中 ， 电 视 广 告 费 用 的 条 数 相 同 吗 ? 对 每 一 种 情形 
的 来 数 作出 解 炎 . 

{4) 车 电视 广告 费用 为 3S00 元 ， 报 绒 广 告 费 用 为 1800 元 ， 一 周 总 收入 的 苦 计 值 是 
多 少 ? 

(5) 对 于 模型 y= 抽 + 有 zi+Ppzas+Et， 在 0.05 显 著 性 水 平 下 ， 检 验 银 设 末 , :8| = 
且 =0. 其 中 : zi 为 电视 广告 费用 (单位 : 千 元 )， zy 为 报纸 广告 费用 (单位 : 千 元 )， 

《6) 在 0.05 显著 性 水 平 下 ,， 检 蓝 有 的 亚 著 性 ，z1 应 该 众 模型 中 期 去 吗 ? 

(7) 在 0.05 显著 性 水 平 下 ,， 检 难 p 的 显著 性 ，z。 应 该 从 模型 中 期 去 吗 ? 

7.“ 飞 钢 " 公 司 是 一 家 生产 自行 车 和 与 自行 车 相关 霍 部 件 的 企业 ， 苞 理 人 员 认 为 自 
行车 的 销售 量 ( 音 位; 千 辆 ) 依 瑚 于 本 公司 自行 车 的 价格 及 其 竞 李 对 手 的 价格 (单位 ; 
元 )， 六 希望 建立 自行 车 的 销售 量 与 该 公司 自行 车 价格 和 竞争 厂商 自行 车 价格 的 回归 方 
程 , 表 6.16 列 出 了 10 个 颖 市 的 份 烙 资料 . 
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衷 6.16 
喜 争 厂商 的 价格 zi 该 公司 的 价格 <> 








试 完成 下 列 问题 ， 

(1) 建立 回归 方程 ， 要 求 它 能 在 竞争 厂商 自行 车 的 价格 与 该 公司 自行 车 的 价格 已 知 
了 时 预测 自行 车 的 销售 是 ; 

(2) 对 回归 方程 中 的 和 62 作出 解 寿 ; 

(3) 如 采 在 一 个 城市 飞 鲍 " 自 行车 的 销售 价格 为 270 元 ， 竞 争 厂 商 的 自行 车 价格 为 
280 元 ， 预 测 在 该 城市 自行 车 的 销售 量 ， 

8,， 某 电 器 经 销 公 司 在 15 个 着 市 设 有 经销 处 ， 公 司 发 现 彰 电 销售 量 与 该 城市 居民 数 
多 少 译 关 条 ， 并 希望 通过 居民 数 的 多 少 来 其 测 其 彩电 销售 旦 . 表 6,.17 是 有 关 彩 电 销售 
量 与 城市 居民 户 数 的 纺 计 数据 ， 

衷 4.17 








斌 完成 下 列 问 题 ， 
(1) 计 工 彤 电 销售 重 与 城市 居民 之 问 的 线性 相关 系数; 
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《2) 拟 合 彩 电 销售 量 对 城市 居民 户 数 的 回归 直线 ; 

(3) 计 站 决定 打数 ; 

《4) 对 回归 方程 的 线性 半 打 和 回归 系数 进行 显著 性 检验 (a =0.05)， 并 对 结果 作 莘 
要 分 析 ， 

9. 某 种 商 曲 销售 蝇 ( 了 )， 消 费 者 的 平均 收入 ( 蕊 以 及 商品 价格 (成 ) ) 的 统计 数据 如 











琢 6.18 所 示 ， 
吉 6.18 
了 100 75 80 7 区 向 110 100 如 本 
XL | 100 600 1200 500 300 300 1300 ”1i00 1300 400 
时 2 5 7 6 6 8 9 3 4 5 7 
斌 完成 下 列 问 题 : 


(1) 建立 了 对 和 |， 苇 ;的 线性 回归 方程 ; 

(2) 对 方程 进行 显著 性 检验 ; 

《3) 对 仿 回 归 系 数 进行 检验 ; 

《4) 当 XI1=1200，X2 =8 时 ， 在 95% 的 置信 度 下 ， 求 销售 量 了 的 置信 区 闻 . 
加 ,， 某 矿 区 采取 18 个 煤 冬 ， 测 得 密度 及 不 分 (单位 ;% ) 见 表 6.19. 

表 6.19 





斌 求 密度 及 大 分 之 间 的 线性 回 妇 方程 ， 并 在 显著 性 水 平 0.01 下 答 验 其 线性 相关 程 
度 ， 

iI. 为 研究 学 习 时 间 长 赵 对 某 门 功课 学 习 成 绩 的 彩 响 ， 现 随机 抽取 20 个 学 和 ,得 到 
如 表 6.20 所 示 的 筑 料 ， 
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衷 6.2 











斌 完成 下 列 问 题 ， 

《1) 判断 学 习 时 间 长 短 与 学 习 成 绩 之 问 有 无 线性 相关 基 素 ; 

(2) 在 显著 性 水 平 为 5% 有 时， 检验 学 习 时 闻 长 短 与 学 习 成 绩 之 冯 的 线性 相关 程度 是 
否 亚 著 ; 

{3) 车 月 显著 性 的 线性 丰 关 关 条 ， 求 出 两 者 之 问 的 线性 国 归 方程 ， 指 出 学 习 时 间 为 
100 学 时 时 成 绩 的 平均 数 ; 

(4) 在 显著 性 水 平 为 0.05 时 ， 对 回归 和 参数 进行 统计 检验 ; 

《5) 计算 估计 标准 误差 ， 

12. 合成 纤维 的 强度 ?( 单 位 :kg/mm ) 与 其 拉 伸 倍数 zx 有 关 ， 测 得 试验 数据 见 表 
6.21 ， 

闻 6.21 





2.0 3.5 2.7 3.5 本 四 引 .5 5.2 6.3 了 8.0 号 协 . 









1.3 2.5 2.5 2.7 9.5 4 了 3 五 ,4 6.3 7.0 入 . 3. 





读 完 成 下 列 问题 ; 

(1) 求 ? 对 > 的 回归 直线 ; 

(2) 在 显著 性 水 平 为 0.05 时 检验 回归 直线 的 显著 性 ; 

(3) 求 zu=6 时， 的 预测 值 及 预测 区 间 ( 置 信和 度 为 0.95)， 


附录 A MATLAB 的 基本 酌 数 


一 、 通 用 命令 
(1) 通用 信息 
函数 
help 


。201 。 





功能 
在 线 帮 助 





(2) 工作 空间 管理 





天 数 


cleatr 


]oad 
quit 
eeXit 


(3) 函数 管理 


功能 

清除 内 大 弯 量 和 西数 

列 出 内 存 中 的 变量 名 

列 出 内 存 中 变量 的 详细 信息 

收 业 MATIAB 内 地 碎 块 扩大 内 在 
把 内 站 亦 量 保 丰 为 文件 

从 MAT 文件 读 取 变 量 

退出 MATLAB 环境 

和 出 MATLAE 环境 











函数 
What 
which 
type 
lookfor 


inmerm 





葛 能 

列 出 当前 目录 上 的 文件 
确定 函数 ,文件 的 位 置 
显示 M- 文 件 

按 关 键 字 搜 索 M- 文 件 
列 出 内 看 中 的 函数 名 





(4) 命令 窗口 拉 租 与 操作 系统 命令 


青 数 


由 ary 
机 z 





功能 





指定 当前 目录 

清除 指 信 窗 
MATIAR 指令 窗 文本 内 容 记 录 
目录 列表 


ea 202 


数理 统计 与 Hzd377.48 妆 据 处 理 





dos 


echo 


执行 DOS 指令 并 返回 结果 


M- 文 件 被 执行 指令 的 明示 


format 设置 输出 将 式 


IITIOLIE 


指令 窗 中 内 容 的 分 页 显示 








二 、 基 本 数学 函数 


《全 三 角 亢 数 
函数 





功能 





atan2 


正 茂 

双 曲 正 强 
余 强 
驱 曲 余 引 
正切 

双 曲 正切 
反正 苞 
反 双 曲 正 菠 
反 余 绩 

友 双 曲 余 茂 
反正 切 
反观 曲 正切 
四 大 限 反正 切 











函数 


exP 


(2) 指数 症 数 


bow2 





(3) 复数 函数 


功能 
指数 画 数 

2 的 四 
自然 对 数 
底 为 2 的 对 数 
阐 方 根 





谓 数 





功能 





conj 


Teal 


abs 


绝对 值 ,楼 、. 字 符 的 ASC 开 码 值 
复数 共 
复数 的 实 部 











扒 爱 4 MA4TL4B 的 基本 范 数 ”203 。 





imag 复数 的 庚 部 








(4) 数据 分 析 与 其 他 数学 函数 


务 数 


功能 











SBgD 
cumSUIT 
Sum 
di 于 

int 

奉 

fttn 
expand 


找 向 量 中 乃 小 元 素 
找 向 量 中 最 大 元 素 
求 余数 

董 号 画 数 

元 素 妹 计 和 

元 素 和 
数值 差分 、 符 号 微分 
符号 积分 

离 昭 Foutrier 恋 换 
高 维 遍 散 Fourier 谈 换 
符号 计算 中 的 展开 操作 





(5) 数值 处 理 函 数 








画 赦 
round 
fx 
cejil 


则 locr 


功能 








向 最 近 整 数 取 整 
向 堆 取 束 

向 正 无 穷 到 总 
向 负 无 穷 取 状 





三 、 矩 阵 与 数值 线性 代数 
(1) 特殊 变量 与 常数 


兽 数 





功能 





Na 








溯 点 相对 精度 
虚数 单位 

加 周 率 

无 穷 太 

不 定式 ( 非 数 ) 变 重 








《2) 基本 矩阵 生成 函数 








阴 数 ”功能 











eye 单位 阵 
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ones 
ZeTOS 
rand 


randn 


北 理 统计 与 MA477.4 厂 妆 拟 处理 





全 工 数 组 
全 0 数 组 
产生 均匀 分 市 随机 数 
产生 正 态 分 布 戎 机 数 





《3) 矩阵 操作 
函数 
tndims 
Teshape 
length 

本 

find 

end 

ij 

triu 


也 1 


功能 

求 数组 维 数 

改变 数组 维 数 、 大 小 

数组 长 度 

算 阵 的 夫 小 

学 找 非 堆 元 素 下 标 

数组 每 维 最 后 元 素 下 标 
下 三 角 阵 

上 三 角 阵 

把 稀 蔬 起 阵 转换 为 非 逢 跤 阵 








(4) 高 维 数组 与 其 他 数据 类 型 的 创建 与 操作 


画 数 


功能 





ft 

cel] 

Struct 
ieldnames 
cell2sttruct 
struct2eell 


char 


囊 接 成 高 维 数组 
创建 元 孢 数组 

创建 构架 数组 

构 荣 域名 

把 元 胞 数组 转换 为 构架 数组 
把 构 轩 数组 转换 为 元 哆 数组 


把 数值 、 疹 号 内 联 类 对 稍 转 换 为 字 疹 对 象 





(5) 特殊 矩阵 
范 数 

















功能 











diag 
IaRIC 


SbaTse 





蛤 作对 角 元 素 提 取 、 创 奸臣 角 阵 


魔方 阵 
创建 种 朴 址 阵 





(6) 答 阵 攻 数 与 线性 方程 组 





冰 数 


det 








功能 
行列 式 














Sv 

chol 

区 
eXPITL 
Pettmute 


rcond 


附 菇 4 MA4TL4H 的 基本 阔 扫 


求 答 阵 逆 

夫 阵 或 向 量 范 数 
LU 分 解 
奇异 值 分 解 
Choelesky 分 解 

求 特征 值 和 特征 向 量 
常用 夫 阵 夏 数 函数 
广义 转 置 

趣 阵 僻 条 件数 估计 


四、 程序 设计 诸 言 与 调试 
{1) 程序 控制 流程 








函数 
这 
swritch 
for 
while 
End 
tTy 
break 
etutm 


errortTap 


功能 

条 件 分 支 结构 

多 分 支 结 构 

构成 for 插 环 

控制 流 中 的 码 hile 挤 环 针 构 

控制 流 for 等 结构 体 的 结尾 
控制 流 中 前 Try-catech 结构 

while 或 for 环 中 断 指 他 

肥 固 调用 琐 数 

错误 发 生 后 程序 是 否 继续 执行 的 控制 





“205 ， 








(2) 变量 、 正 值 与 执行 


函数 
assignin 
global 
double 





功能 

向 变量 县 值 

定义 多 局 变量 

把 其 他 类 型 对 么 转换 为 双 精 度数 值 








(3) 程序 参数 处 理 








函数 
地 Putnamie 
nargin 


Dargout 


功能 

和 输入 宗 量 名 
函数 输入 宗 量 数 
男 数 输 出 宗 量 数 








(4) 信息 显示 








”206 。， 


函数 
fprintf 
出 sp 
lasterr 
]astwatrn 
Warmin 多 
efrOT 


display 


数理 统计 与 M477.4 吾 数据 处 理 








功能 





设置 显示 烙 式 

显示 数组 
显示 最 新 出 错 信息 
显示 最 新 敬告 信息 
显示 辣 告 信息 

显示 出 错 信 息 并 中 断 执行 
显示 对 彰 内 容 的 重 载 画 数 





(5) 交互 输入 








函数 


功能 





input 
keyboard 


Pause 


提示 用 户 输入 
键 诅 获 得 控 制 权 
暂停 





(6) 其 他 





函数 
elass 
tnethods 
Superiorto 
了 iops 
fread 
clock 


drawwnow 





功能 

获知 对 彰 类 别 或 创建 对 永 

获 筷 对 指定 类 定义 的 所 有 方法 函数 
设 定 优先 级 

打开 外 部 文件 

从 误 件 读 二 进 制 数据 

时 挤 

更 新 事件 队列 , 强 连 MATLAB 剧 新 屏幕 





五 、 绘 图 与 图 形 界面 设计 
(1) 基本 绘图 函数 





函数 


功能 





imnage 
plot 
Plot3 

fl 

fi 

suI[ 
Tectan 宫 ]e 


亚 示 图 像 

二 维 线 图 

三 维 战 图 

二 维 多 边 形 填 色 图 
三 维 多 边 形 填 记 图 
三 维 着 色 表 面 图 
画 长 方 杠 








附 划 4 MA4TLA4B 的 基本 函 灼 





surfe 
texXt 
SETIilogX 
sermmilogy 


logleg 


带 苇 位 线 的 表面 图 
文字 注释 

和 轴 对 数 刻 度 坐 标 轩 
YY 轴 对 数 剂 度 坐 标 图 
双 对 数 剂 度 图 形 


《2) 用 户 图 形 界面 设计 





冰 数 


207 。 





功能 





Bet 

Se 
findobj 
ededit 
axes 
Uicontextrmeni 
ticentrol 
uiment 
patch 
ieure 
1ight 

]ine 


(3) 动画 设计 


获知 对 意 属性 
设置 图 形 对 条 属性 

寻找 具有 指定 属性 的 对 京 图 枯 
启动 用 户 菜 章 、, 控 件 回调 画 数 设计 工具 
创建 输 对 闲 的 做 层 指 全 
创建 现场 菜单 

创建 用 户 控件 

划 建 用 户 菜单 

创建 瑞 对 姜 

创建 图 形 窗 

创建 光 对 变 

创建 战 对 勾 








函数 
IOvie 


getframe 





功能 
芒 映 彩 片 动画 
获取 彩 片 前 帧 画面 


六 、 字符 率 处 理 


通 数 





功能 








sprin 寻 
SSCard 
Strctmp 
strnetnp 
strrep 
finqstr 


]ower 





把 烙 式 数据 写成 串 

按 指 定 糙 式 读 束 

事 比 较 

囊 中 前 若干 池 背 比较 

串 替 换 

寻找 旺 串 前 起 始 字 蔡 下 标 
转换 为 小 写字 母 





208 -。 插 理 统计 与 14 了 7224 号 数据 处 理 


ubpet 
fewil 


ev 


evalin 





转换 为 大 写字 寻 
执行 由 于 指定 的 函 烧 
素 演 痛 指 令 
碧空 间 率 演算 指令 


七 、 运 辑 判 断 与 检测 


any 
isreal 
isequal 
isSetmpty 
isfinite 
islogical 
isinf 
isnan 
jssparse 
ischar 
isglob 对 
这 jetter 
1sspace 
ishandje 





功能 

检查 变 童 或 画 数 是 否 已 定 六 
检测 是 否 络 定 类 的 对 彰 
所 有 元 素 非 过 为 真 

所 有 元 素 非 公 堆 为 真 
若是 实数 则 为 真 

若 两 数组 相同 则 为 真 

落 且 空降 则 为 真 

若 爸 部 元 素 者 有限 则 为 真 
著 是 还 辑 数组 则 为 真 

落 是 无 穷 数 据 则 为 真 

著 是 非 数 则 为 真 
若是 笑 朴 给 陈 则 为 真 

著 是 字 桂 事 则 为 真 

车 是 全 局 变量 则 为 焉 

著 是 英文 字母 则 为 真 

著 是 空 阁 则 为 真 

落 有 图 形 句 杨 则 为 真 








八 、 其 他 





遂 数 
SIm 
Sinaset 


Sifmulink 


功能 





运行 SIMIJTLINK 模型 
对 SIMULINK 模型 的 仿真 条 数 进 行 设置 
启动 SIMULINK 模 决 库 测 览 器 





附录 B MATLAB 常用 统计 分 析 国 数 


一 、 关 于 概率 分 布 的 MATLAB 描述 
(1) 20 种 常见 分 布 的 MATLAB 和 名称 
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分 布 类 型 


分 布 的 MATLAB 名 称 











贝塔 分 市 

人 徊 地 分 市 

和 指 数 分 市 
正 态 分 市 

对 数 正 态 分 布 
均 习 分 市 

瑞 利 分 布 
威 市 汞 分布 
二 项 分 市 

泊 检 分布 
几何 分 市 
超凡 何 分 市 
浮 数 均 习 分 布 
负 二 项 式 分 市 
卡 方 分 布 

T 分 市 

F 分 市 

非 中 心 卡 方 分 布 
非 中 心 分 布 
非 中 心 上 分布 


beta 或 Beta 

gatn 或 Gamrna 

exp 或 Exponential 

notm 或 Normal 

logn 或 Lognotrmal 

unif 或 Uniform 

zayl 或 Rayleigh 

we 或 克 eibull 

bino 或 Binomial 

poiss 或 Poisson 

geo 或 Geometric 

hyge 或 Hypetgeotmetric 
unid 或 Diserete Umiform 
nbin 或 Negative Binomial 
chi2 或 Cbisquare 

[ 囊 人 

f 或 下 

nex2 或 Noncentral Chisquare 
nef 或 Nonceertral 下 

nect 载 Noncenttal t 





(2) 梳 率 密度 函数 (pdf) 





函数 及 其 调用 格式 “功能 与 参数 说 明 
y= betapdf(x, avb) 求 参 数 为 ab 的 有 分 市 在 x 处 的 概率 密度 值 y 
y=gampdf(x,a,b) 求 参数 为 aub 的 了 分 市 在 x 处 的 概率 密度 值 y 











0 


发 理 统计 与 对 477.4 电 数据 处 理 





y= exppdi(x, lambdqa) 

y= hotnpdi(x, tnuy sigrma) 
7=Jognpdf(x, mu sigrmay) 
y 一 utifpdf (xy ab) 
y=Iaylpdf(x,b) 

y= weibpdi(x,ayb) 
y=Dbinopdi( xn, P) 

7= poisspdf( xjarmbda) 
y= geopiffx, P) 

y= hygepdi xm k,n) 
y= unidpd 区 xm) 

y= nbinpdfx, 及 , P) 
y=eh2pdfk xy ny 
7=tpdf(x 
y=fpdilf(xnl,n2) 

7 一 mex2pdff xn deltay) 
y= netpdff xy ny delta) 

y 三 hefpd 代 xnl,n2, delta) 





求 参数 为 latmlxla 的 指数 分 布 在 蔗 处 的 概率 密度 值 y 
求 邓 数 为 tmuysigma 的 正 态 分 布 在 处 的 概 举 密 度 值 y 

求 邓 数 为 ma sigma 的 对 数 正 坊 分 在 x 处 的 概率 密度 慎 y 
求 区 闻 [a,b] 上 的 均匀 分 布 在 x 处 的 概率 密度 恒 y 

未 参数 为 日 的 瑞 利 分 市 在 x 处 的 概率 密度 值 y 

求 和 参数 为 ab 的 感 布 尔 分 布 在 区 处 的 概率 密度 值 y 

求 参数 为 岂 已 的 二 项 分 布 在 x 处 的 概率 密度 值 y 

求 参数 为 lambda 的 泊 松 分 布 在 x 处 的 概率 密度 值 y 

未 参数 为 了 的 几何 分 布 在 x 处 的 概率 密度 值 y 

来 参数 为 mkn 的 起 几何 分 布 在 x 处 的 概率 密度 值 y 

求 参数 为 口 的 离散 均 习 分 市 在 x 处 的 概率 密度 值 y 

求 参数 为 人 ,了 的 负 二 项 式 分 布 在 x 处 的 概率 密度 值 y 

求 自由 度 为 卫 的 卡 方 分 布 在 X 处 的 概率 密度 值 y 

未 自由 度 为 口 的 + 分 市 在 X 处 的 概率 密度 值 y 

求 第 一 、 二 自由 度 分 别 为 nl mn2 的 下 分 市 在 xx 处 的 概率 密度 值 9 
求 参数 为 tb delta 的 非 中 心 卡 方 分 布 在 x 处 的 概率 密度 值 y 
求 参 数 为 mn delta 的 非 中 心 1 分 布 在 工 处 的 概率 密度 值 y 

求 和 数 为 nl,n2,delta 的 非 中 心 下 分 布 在 x 处 的 概率 密度 值 y 





【 注 ] 输 入 参数 x 可 以 是 向 量 , 此 时 输出 y 是 同 维 数 向 量 ,下 同 . 其 他 输入 和 参数 的 意义 和 取 
值 请 查阅 相关 概率 分 布 的 数学 定义 ， 
(3) 累积 概率 分 布 函数 (edf) 





冰 数 肥 其 调用 榈 式 





函数 功能 (分 布 参数 意义 同 pdf 





P= betacdf(x,a,b) 

中 = gamedff xy ab) 
p=expedf(x lambda) 
p= normedt(x,muy sigmay) 
p= iogncdf(x, mu, sigrmay 
PB= thaifcdf 《xyayb) 

P= taylcdffx,hb》 

P= Weibed 区 x, ab) 

P= binocdf( xy n, 了 P) 

pP= paoisscdf(x, latnbday 
bp= geocdffx, 忆 ) 





求 有 分 布 在 x 处 的 分 布 画 数值 

求 yY 分 布 在 x 处 的 分 市 函数 值 p 

未 指数 分 布 在 X 处 前 分 布 函 数 慎 b 
求 正 态 分 市 在 x 处 的 分 布 高 数值 p 
求 对 数 正 态 分 布 在 x 处 的 分 布 画 数值 
求 均 习 分 布 在 x 处 的 分 布 画 数值 
求 瑞 利 分 布 在 x 处 的 分布 画 数 值 
求 威 布尔 分 布 在 x 处 的 分 布 函 数值 
求 二 项 分 市 在 x 处 的 分 布 函数 值 b 
求 油 松 分 市 在 并 处 的 分 市 函 数值 
未 几何 分 布 在 x 处 的 分 布 画 数 值 p 








附 及 了 8 MATTLABE 带 用 统计 分 折 员 数 
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白兰 hygeedf xy mk,ny 

虽 =unicpdt xy my) 

b= nbincdaff x, 及 , 忆 ) 

p= chi2edff(x,nm) 

pP= tedf(x,m) 

bp= 长 dffx,nl,n2) 

pP= mcx2edf( xn delta) 
p= netcdt(x, ny deita) 

pP= mnefcdffxynl,n2,deltay 


求 超 几 何 分 市 在 x 处 前 分 市 函数 值 P 
求 离 散 均 习 分 市 在 工 处 的 分 市 画 数 值 p 
求 抽 二 项 式 分 市 在 x 处 的 分 布 画 数值 
求 卡 方 分 布 在 xx 处 的 分 市 函数 值 p 

求 1 分 布 相 xx 处 的 分 布 丽 数值 日 

求 下 分 市 在 x 处 的 分 布 了 画 数 值 b 

求 非 中 心 卡 方 分 市 在 x 处 的 分 市 洒 数值 
求 非 中 心 + 分 市 在 x 处 的 分 布丁 数值 
求 非 中 心 下 分 市 在 xx 处 的 分 市 函数 值 








【 注 】 果 积 概率 分 布 函 数 的 数学 定 广 为 发 = F(z)= 卫 | 三 委 z| 
(4) 逆 累 积 概率 分 布 函 数 (inv) 








函数 及 其 调用 格式 


函数 功能 (分 布 参数 党 义 同 pdf) 





xX= betainv{bya'hb) 

X= gaminvfb,a,b) 

X= expinvyfp, lambday 

X= norminv(p, mu sigmay》 
X=]ogniny(p, muysigma) 
X= Unifinv【Dp, ahby 
x=taylinvfp,b) 

x= weibinv( p, ab) 

工 = binoinv(p,n,P) 

X= Poissinv( py lambday》 

X= geoiny(p, P) 

X= hygeinvfp, mk,n) 

X= unicinv( p,nD) 
X=hbininyf(p, 民 ,了 ) 
x=chi2inv(py, mn) 

pP= tinv( pn) 

x= fnvfp,nl,n2) 

Xx= nex2inv(p,ny deltay) 
X= nctinyfp,ny delta) 

x= ncfinv( pnl,n2, delta) 


求 B 分 市 的 唱 分 位 喜 X 

求 了 分 市 的 P 分 位 息 式 

求 指数 分 市 的 P 分 位 点 区 
求 正 态 分 布 前 口 分 位 点 工 

求 对 数 正 态 分 布 的 分 位 点 xx 
未 均匀 分 布 的 了 分 位 点 

求 瑞 利 分 市 的 b 分 位 点 式 
求 威 斋 录 分 市 的 唱 分 位 点 入 
求 二 项 分 市 的 p 分 位 志 x 
求 消 松 分 布 的 日 分 位 点 区 

求 几何 分 布 角 提 分 位 点 xx 
求 超 几 何 分 市 的 了 分 位 点 六 
求 离 散 均匀 分 布 的 唱 分 位 点 太 
. 求 负 二 项 式 分 市 前 分 位 点 xx 
求 卡 方 分 市 的 分 位 点 xx 

求 t 分 市 的 p 分 位 点 

求 下 分 布 的 唱 分 位 直入 

求 非 中 心 卡 方 分 市 前 p 分 位 起 区 
求 非 中 心 { 分 布 的 了 分 位 点 X 
求 非 中 心 F 分 市 前 已 分 位 训 工 





【 注 ] 逆 累积 概率 分 布 函数 的 数学 定义 为 二 = 下 -!{ 户 ) 即 已 知 户 = P1XSzh 求 z. 
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{5) 均值 和 方 莹 函数 (stat) 
函数 及 其 调用 将 式 


数理 统计 与 HH437.4 呈 数据 处 理 





函数 功能 (分 布 参数 音义 同 pdf) 





[M,Vj = betastat (ayb) 

[M, V] = gatmstat (ay,b) 
FM,V] = expstat(p, larmbda) 
[M,V] = normstatfmuy,sigma) 
[M,V] =lognstat (mu sigmal) 
[M, V] = unifstat (a,b) 

[M, V] = raylstat fb) 

[M,V] = weibstat (ab) 
[M,V]=binostat (fn,P) 
[M,V]= poisstat (Lambda) 
[M,V] = geostat (了 ) 

[M, V] = hygestat (mk,n) 
[M,V]= unidstat (n) 

[M,V 了 = nbinstat (有 R,P) 
[M,V] = chi2stat (x,n) 
[M,V] =tstat ny 
[M,V]=fstat (nl,n2) 
[M,V] = hcx2stat fn, delta) 
[M, V] = nectstat《n, delta) 
[M,V]= nefstat (nl,n2,delta) 


求 8 分 市 的 期 望 M 和 方 羡 立 

求 了 分 市 的 期 望 M 和 方 盖 V 

求 指数 分 布 的 期 望 M 和 方 盖 立 
求 正 态 分 布 前 期 望 M 和 方差 立 
求 对 数 正 态 分 市 的 期 望 M 和 方 盖 立 
求 均 习 分 布 前 期 户 M 和 方 盖 立 
求 瑞 利 分 布 前 期 刻 M 和 方 兰 了 
求 威 市 尔 分 市 的 期 望 M 和 广 善 了 
求 二 项 分 市 的 期 望 M 和 方 盖 六 

求 泊 松 分 市 的 期 望 M 和 方差 了 

求 几 何 分 布 的 期 望 M 和 方 盖 立 
求 超 几 何 分 市 的 期 望 M 和 方 盖 交 
求 昂 琢 均 习 分 市 的 期 望 M 和 方 盖 立 
求 负 二 项 式 分 布 的 期 望 M 和 方 盖 允 
求 卡 方 分 布 的 期 望 M 和 方差 六 
求 t 分 布 的 期 塑 M 和 方 盖 V 

求 耻 分布 的 期 望 M 和 方 盖 六 

求 非 中 心目 方 分 市 的 期 望 M 和 方 兰 V 
求 非 中 心 夺 分 布 的 期 望 M 和 方 盖 女 
求 非 中 心 下 分 布 的 期 望 M 和 方 盖 台 





《6) 随机 数 产 生 函数 (rnd) 


函数 及 其 调用 格式 
和 = betarmndfa ,brec) 
和 = gamrndfa bre) 








入 = exprnd(lambdarye) 

及 = normrndf mu sigma re) 
且 =]lognrnd(muy sigma, zc) 
匡 = Unhifrnd (ab,ryc) 

瑟 =Traylrndfh,r,c) 

六 三 weibrndg(ah,ric) 

尽 =binorndf mn Ptec) 














函 孝 功能 (分 布 参数 意义 同 pdf 








产生 服从 贝塔 分 市 的 + 行列 随机 数 算 阵 X 
产生 服从 何 珊 分 市 的 上 + 行列 随机 数 秀 阵 X 
产生 服从 指数 分 市 的 行列 随机 数 答 阵 葡 
产生 服从 正 态 分 市 前 z 行 c 列 随机 数 答 阵 束 
产生 服从 对 数 正 态 分 市 的 z 行 c 列 郑 机 数 答 时 注 
产生 服从 均 习 分 布 的 rz 行列 随机 数 短 阵 
产生 服从 瑞 利 分 布 的 + 行列 随机 数 趣 阵 
产生 服从 感 布 尔 分 市 的 z 行 上 列 随 机 数 短 阵 芒 
产生 服从 二 项 分 布 的 Y 行 列 随机 数 拒 阵 立 
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产生 服从 泊 松 分 布 的 r 行 列 随 机 数 算 阵 买 

产生 服从 万 何 分 布 的 上 行列 随 宙 数 起 阵 X 

产生 服从 超凡 何 分 布 的 T 行 c 列 随机 数 和 阵 X 

产生 服从 离散 均 习 分 布 葛 TY 行列 随机 数 和 矩阵 X 

产生 服从 负 二 项 式 分 布 的 r 行 ec 列 随机 数 答 阵 芳 

产生 服从 趾 方 分 布 的 Tr 行 < 列 随机 数 起 阵 和 X 

产生 服从 1 分 布 的 T 行 5 列 随 机 数 短 阵 和 

产生 服从 下 分 市 的 行列 随 宙 数 纸 阵 X 

产生 服从 非 中 心平 方 分 布 的 了 行 c 列 随机 数 趣 阵 避 
X= nctrndfny deltarc) 产生 跟从 非 中 心 上 1 分布 的 1 行列 随机 数 起 降 六 

X=ncfrnefnln2,deltaiyc) 产生 服从 非 中 心 卫 分布 的 T 行 c 列 随机 数 起 阵 区 


二 、 关 于 常用 统计 量 的 MATILAB 描述 


入 = poisstnd( lambda rm ch) 
和 = geornd(P,rc) 

入 = hygetrndft mk, ny rc) 
和 = Unidrndfn re) 

各 = nbintrnd( 及 ,Pte) 
X= cehi2rmdtn rc) 

苹 = trmdtny To 

其 = frndfnl,n2 te) 

= nex2rmndtn delta rc) 














统计 量 名 称 | 函 教 及 调用 格式 画 教 说 明 
均 屠 M= tnean(X) 计算 向 量 和 中 各 元 素 的 茜 术 平均 性 
M= mean{ 丑 ,di 吕 n) 计算 向 本 和 的 指定 维 数 dim 内 元 素 的 算术 乎 


均值 


NM= nanmeanfX) 
TM=trimmean(X,p) 


计 章 向 重 共 中 除 NaN 外 元 素 的 算术 平均 什 
计 基 向 量 和 中 元 素 的 修正 四 术 平 均值 ,参数 
表示 所 剔除 的 仿 太 各 偏 小 数据 的 百分比 














中 信 ME = median(X) 返回 向 量 科 的 中 位 数 
ME = nanmedian() 忽略 NaN 肥 回 中 位 数 
几何 均 性 GM= geomeanfX) 计 工 向 量 科 的 几何 平均 慎 
调和 均值 | HM = harminean(XX) 计算 向 量 的 调和 平均 值 
xp= DretilefXX, DB) 计 亲 p 分 位 数 ， 其 中 蒋 入 参数 从 是 数据 向 量 ,P 
p 分 位 数 是 取 0 一 100 的 实数 值 ; 输出 驮 数 xp 返回 向 量 


| 


和 的 小 于 pb%( 下 侧 ) 的 分 位 点 





最 大 值 MAX= maxfX) 


MAX = Dantmax(X) 





最 小 情 





排序 | 了 = sort(X) 


MIN = min(X) 


卫 


返回 向 量 和 的 最 小 性 
四 | MIN = nanmin(X) | 


返回 向 醒 芯 的 最 天 值 
近 回 她 略 NaN 的 最 大 值 





这 回 忽略 NaN 的 最 小 慎 








返 国 向 量 和 了 按 由 小 到 大 排序 后 前 向 量 

















as 2 
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极 差 及 = tange(XX) 


[Y,TI]= sortfX) 


Y=sort(X dimy) 


将 = sorttrowsf X) 


YY = sorttows( Xe) 
[Y, JJ = sortrowsfX, ce) 








立 为 排序 的 结果 , 工 中 元 素 表 示 立 中 对 应 元 素 
在 中 位 置 

在 给 定 的 和 新 的 维 数 dimm 内 排序 , 著 尽 元 素 
为 复数 , 则 按 |X| 排 序 

和 为 拒 阵 ,返回 矩阵 立 , 立 是 按 和 前 第 工 列 由 小 
到 大 、 以 行 方式 排序 后 生成 的 矩阵 

按 指定 列 “由 小 到 大 进行 排序 

壮 为 菲 序 的 结果 ,， 工 表示 芋 中 第 c 列 元 束 在 六 
中 位 置 . 车 买 元 素 为 复数 ， 则 接 |X| 的 天 小 排 
序 








方差 






V=wvatfX wy) 
S= St 民 X,flag,dirmy) 















这 回 向 量 允 中 元 素 的 最 大 值 与 最 小 值 之 





W=varfX) 评 交 向 醒 入 的 方差 
V=varfX1) 计算 向 量 和 的 二 阶 中 心 拒 


计算 向 量 和 的 以 ww 为 权重 的 方差 

计 关 向 量 X 中 维 数 为 dim 的 元 素 的 标准 盖 值 ， 
其 中 flag=0( 时 认 ) 时 ， 置 前 因 了 于 为 17(n 一 1); 
否则 置 前 因子 为 1/n， flag，diin 可 缺 省 

著 和 为 含有 元 素 NaN 的 向 重 ， 则 返回 除 NaN 
外 的 元 素 的 标准 盖 

















了 = momentf XX,K) 计 产 向量 和 的 玫 阶 中 心 超 
KU= kurtosis(X) 计 亲 南 量 和 的 峰 度 








标准 兰 
NS = nanstdf 允 ) 
中 心 拭 
峰 度 
偏 度 SRK = skewhness{X) 
C= covfX) 
协 方差 
C= cov(X,Y) 





CR = corrcoef (A) 





计 站 向量 X 的 贪 诗 度 














计算 向 量 刁 的 协 方差. 车 和 为 和 矩阵 ,返回 和 各 
到 向 量 的 协 方差 疮 阵 ， 该 协 方差 皂 阵 的 对 角 线 
元 总 是 里 的 各 列 的 方 盖 ， 即 war( 革 ) = diagfeov 
(2 芭 )) 





以 了 为 等 长 列 向 重 ， 革 同 于 rov([XY]) 
计 痉 列 向 量 X， YY 的 扫 关 和 打数 


相关 系数 | (CR= correoef(X,Y) 


退回 夫 阵 入 的 列 向 量 的 扯 关 末 数 超 降 





【 注 】 上 述 函 孝 中 , 车 XX 为 所 阵 ， 则 返回 和 中 各 列 向 量 的 函数 值 构 成 的 行 向 量 . 
三 、 统 计 作 图 
(1) 正 整数 的 频率 和 
【本 数 】tabulate 





异 值 ， 


征 恒 


附 呈 了 MATL4B 此 用 统计 分 折 数 。215 。 


【 插 式 ]table = tabulate(X) 

【说 明 ] 和 输入 条 数 时 为 正 整数 构成 的 向 量 ,返回 矩阵 table 育 3 列 : 第 1 列 为 尽 的 互 
种 2 列 为 这 些 值 的 个 数 ， 革 3 列 为 这 些 值 的 频率 ， 

《2) 经 验 累 积分 布 函数 图 形 

【西数 ]cdfplot 

【 烙 支 】[h，stats] = edfplotfX) 

【说 明 ] 绘 制 样本 X( 向 重 ) 的 累积 分 布 高 数 图 形 ， 并 返回 曲 虐 的 自 柄 h 和 若干 样本 特 
Stats。 

(3) 最 小 二 後 拟 合 直线 

【 马 数 ]lsline 

【 桔 式 ]h = lsline 

【说 明 ] 为 数据 站 志 图 添加 最 小 二 来 拟 合 直 贱 ,hh 为 直 战 前 向 柄 . 

(4) 正 态 分 布 概率 图 形 

【 柄 数 ]normplot 

【 桔 吉 ]h = bormplotfX) 

【说 明 ] 若 为 向 量 ， 则 显示 正 态 分 布 概率 图 形 ; 车 和 为 和 拒 阵 ， 则 显示 每 一 列 的 正 态 


分 市 概率 图 形 . 乏 回 绘图 直线 前 铅 柄 h， 祥 本 数据 在 图 中 用 +" 明示; 如果 数 据 来 自 正 
态 分 布 ， 则 团 形 显示 为 直线 ， 而 其 他 分 布 可 能 在 图 中 产生 弯曲 ， 


《5) 威 布尔 (Waibut) 概 率 图 形 

【西数 】weibplot 

【 插 式 ]h = weibplot(X) 

【说 明 ] 著 买 为 向 痢 ， 则 显示 威 布尔 概率 图 形 ; 车 买 为 起 阵 ， 则 副 示 每 一 列 的 威 布尔 


概率 图 形 , 返回 绘图 直线 的 揣 柄 日 给 制 咸 市 尔 概率 图 形 的 目的 是 用 图 解法 估计 来 自 咸 


布尔 


分 市 的 数据 X， 如 果 买 是 威 布尔 分 布 数据， 其 图 形 是 直线 的 ， 和 否则 图 形 中 可 能 产生 


弯曲 . 


(6) 样本 数据 的 盒 疼 

【西数 ]boxplet 

【[ 插 趟 】 

人 boxplet(X) 

地 boxplot(X，notch) 

饼 boxpiot{X，notch，:sym7) 

轩 boxplot( 生 ,notch，:sym' ， vett) 

昌 boxplot(，notch，'sym'， ，vert， whis) 
【说 明 ] 
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格式 全 产生 起 降 X 的 每 一 列 的 多 图 和 " 须 " 图 ,“ 须 "是 从 人 铭 的 已 部 盐 伸 出 来 ， 并 表示 
使 外 数据 长 度 的 线 ， 如 果 “ 须 ?前 针 面 温 有 数据 ， 则 在 “ 须 "的 底部 有 一 个 点 ， 

桔 款 四 当 notch=1 时 产生 一 馈 全 图，notch=0 时 产生 一 起 着 图 ， 

格式 加 中 sym 表示 图 形 戎 号 ， 蔷 认 慎 为 "二 ”， 

格式 由 当 vert=0 时 生成 水 平 合 图 ，vert=1 时 生成 紧 直 使 图 (四 认 值 vert=11). 

桔 式 加 中 whis 定义 "项 "图 的 长 度 ,， 默认 值 为 1.5， 著 whis=0， 则 boxplot 函数 通过 
绘制 sym 荷 号 图 来 显示 使 外 的 所 有 数据 侦 ， 

(7) 给 当前 图 形 加 一 条 参考 线 

十 数 ]refline 

【格式 】 

加 reflinefslope，intercebty 

加 reftinef slopey 

【说 明 ] 

格式 由 中 引 ope 表示 直 斌 的 斜率 ，intercept 表示 截 距 ， 

格式 四 中 slope= [ab]， 在 图 中 加 一 条 直线 y= 了 b+ ax， 

{8) 在 当前 图 形 中 加 入 一 条 多 项 式 曲线 

【西数 ] refcurve 

[格式 】h = refcurvefp) 

【说 明 } 在 图 中 加 入 一 条 多 项 式 曲 线 柄 ，pb 为 多 项 式 和 打数 向 量 , = [p1，p2， 的 ，…， 
pna]j， 其 中 pl 为 最 高 老 项 系数 ，h 为 曲线 的 身 杨 ， 

(9) 样本 的 概率 图 形 

【证 数 ] capaplet 

【格式 ]p = capaplot(data，specs) 

【说 明 ]data 为 所 给 样本 数据 ，specs 指定 范围 ，p 表示 在 指定 范围 内 的 概率 .该 画 数 
御 回 来 自 估计 分 市 的 随 宙 变量 落 在 指定 范围 内 的 概率 . 

《10) 频数 统计 与 频数 直方 图 

【函数 ]hist 

【 桔 式 】 

儿 [NA]=hist(data nbins) 

四 bist(data, nbhins》 

【说 明 ] data 且 数 据 向 量 ，nbins 指定 数据 分 组 数 .格式 四 可 以 完成 各 组 数据 频数 的 
统计 ，N 返回 各 组 的 数据 频数 ，A 返 回 各 组 数据 前 组 中 情 . 格式 回 返回 频数 直方 图 ， 

《11) 附加 有 正 态 密度 曲线 的 直方 图 

【二 数 】histfit 
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【 格 坟 】histfitfdata，nbins) 

【说 明 ]data 为 向 量 ,， 返回 直方 图 和 正 态 曲 钱 .nbins 指定 数据 分 组 数 ， 献 省 时 为 data 
中 数据 个 数 的 平方 胃 ， 

{12) 在 插 定 的 异 线 之 间 男 正 态 密度 曲线 

【站 数 ]normspec 

【格式 ]p = normaspecf specs，mu，sigrma) 

【说 明 ] spees 指定 界 上 ，mu，sigma 为 正太 分 布 的 参数 ，p 为 祥 本 落 在 上 、 下 界 之 间 的 
报 率 ， 

四 、 参 数 估计 

(1) 几 个 特定 分 布 的 参数 俏 计 函数 

凋 数 及 其 调用 将 式 ”函数 功能 
[phat psj= binofit (xnalpha) 二 项 分 市 参数 日 的 最 大 似 然 巾 计 
[lambdahat, lamhbdaci] = peissfit (x,alpba) 泊 检 分布 参数 入 的 最 大 似 扼 居 计 
[mubat' sigmahat, muei, sigmaci] = nomfit(x,alpha) 正 态 分 市 地 数据 和 的 最 大 似 就 估计 
[phat, peij= berafit (xsalphay 日 分 布 驼 数 a 和 的 最 大 似 扑 估 计 
[ahab bbhat, aci bei]= unifit(xyalpha) 均匀 分 布 参数 a 和 日 的 最 天 似 然 估计 
[thatahat, thetaai] = expfit(xalpha) 指数 分 布 参数 日 的 最 大 似 航 估计 
[phat, ps]= gamfit(x, alpha) Y 分 市 参数 a 和 b 的 最 大 似 扣 估 计 
[phat, pei]= weibfit(xsalpba) 威 市 尔 分 布 参数 a 和 的 最 大 似 喜 估计 
【 注 ]】 上 述 各 函数 中 输入 参数 x 是 样本 数据 向 量 ， 二 项 分 布 中 输入 参数 n 是 试验 次 数 ; 答 
出 参数 分 随 类 。 * hat 是 参数 最 大 似 然 估计 值 ，* ci 是 参数 的 显著 性 水 平 为 apha 的 置信 
区 间 ，alpha 的 歌 认 值 为 0.05， 

{2) 通用 极 大 伏 然 生计 函数 

【机 数 ]mle 

【格式 ] [phat，pei] = mle(*dist'， data，alpha，n) 

【说 明 ] 进行 由 dist 的 指定 分 布 的 分 布 参数 的 最 天 似 热 估计 .data 为 料 本 数据 向 重 ， 
alpha 为 分 布 参数 区 间 估 计 的 显著 性 水 平 ( 献 省 值 为 和.05)，m 为 试验 总 次 数 ( 仅 用 于 二 项 
分 市 ); 返回 参数 phat 和 pci 分 别 为 分 市 参数 的 最 大 似 航 估 计 值 和 置信 区 间 ， 

dist 的 取 值 刀 攻 : Beta，Bernoulli，Binomial，Diserete Unifcorm 卫 xponential，Extreme 




















Value，Gamma，Gecmettic，ELognormal， Negative Binomial，Noermal，Poisson，Rayleigh， 
Unifcermn，Waibail， 


五 、 假 设 答 验 
《1) 正和 次 变量 均值 的 U 检验 法 
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【 击 数 ] zrest 
【 蒜 式 ][b,p,eci,zwal] = ztest(x, mu sigmaalpha.tail) 
【说 明 ] 检 验 的 原 慨 设 为 HA = pa0= 吉 ,输入 大 数 为 样本 向 量 ; 名 为 待 检验 均值 ; 
sigma 为 变量 的 标 难 差 ;alpha 为 显著 性 水 平 ( 吏 认 值 0.05)i tail 是 备 择 慨 设 说 明 : 
车 tail=0， 表 示 备 择 假 设 为 百 | :na 天 1 一 如 {( 殊 认 ， 双 过 检验 ); 
车 tail=1， 表示 各 和 狐 假设 为 吾 :man 三 a{( 单 过 检验 ); 
车 tail= -1, 表示 各 择 假 设 为 吾 | :Am 宫 一 吕 ( 单 边 栓 验 )， 
输出 参数 上 标示 检验 结论 : 
车 h=0， 胡 示 在 显著 性 水 平 alpha 下 ， 不 能 拒绝 原 假 设 ; 
车 h=1， 表示 在 显著 性 水平 atpha 下 ， 可 以 拒绝 原 假 设 . 
P 为 检验 的 最 小 显著 性 概率 ; ei 为 均值 挛 的 1 一 alpha 置 信 区 间 ; zwal 为 统计 生 的 估 ， 
(2) 正 态 变量 均值 的 上 检验 法 
【函数 ] ttest 
上 猪 式 ] [hp,ei, zal] = ztest(xy myalpha taiy 
【说 明 ] 局 ztest. 
(3) 两 个 正 态 变量 均值 差 的 + 检验 潜 
【西数 ]ttest2 
【将 式 】[h, pyei] = ttest2fxy yalphay tail) 
【说 明 ] 检 验 的 原 慨 设 为 昌 ): pi = wo， 葵 入 素数 xX，y 为 两 个 变量 的 样本 向 量 ; 其 他 
地 数 同 ztest， 注意 : tal= 和 表示 得 择 人 慨 设 为 Hi :Ai 天 psi tail=1 表 示 备 择 候 设 为 
瑟 ; ;pi >pazi tail= 于 表 未 备 择 候 设 为 百 | :Pi 必 Ay. 
(4) 连续 变量 分 布 形态 的 Kotmogorov-Smirnov 检验 法 
【了 数 】kstest 
【 猪 式 ] [h,p, stat, evy] = kstest(x cdf,alphay 
【说 明 ] 检验 前 原 假 设 为 变量 xx 服从 cdf 指定 的 分 布 , 和 输入 参数 x 为 料 本 向 量 ; edf 为 
待 检验 的 累积 分 布 画 数 (edf=[ ] 时 表示 标准 正太 分布 1; alpha 为 显著 性 水 平 ， 
输出 邓 数 h 标示 检验 结论 ; P 为 检验 的 晤 小 显著 性 概率 ; stat 为 统计 重 的 慎 ; cv 为 
是 否 接受 原 假 设 的 申 界 值 . 
(5) 两 个 连续 变量 分 布 一 致 性 的 KolmogorovSmirnov 检验 潜 
【本 数 kstest2 
【 绪 式 】[b,p,srat] = kstest2(x, y,alpha) 
【说 明 ] 检 验 的 原 假设 为 两 个 变量 具 育 相同 的 连续 分 布 ， 输 入 参数 x，y 为 两 个 变量 
的 祥 本 向 量 ; 其 他 要 数 同 kstest. 
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(6) 两 个 变量 分 布 一 致 性 的 秩 和 检验 法 

【函数 jranksum 

【 格 忒 ]fp,Ph,stat] = ranksum(xy yalpha) 

【说 明 ] 检 验 的 原 候 证 为 两 个 变量 具有 和 相间 的 分 市 . 邓 数 同 kstest2， 注 意 ，stat 中 包 
揪 ; ranksum 为 区 和 统计 量 的 值 ，zval 为 计算 p 值 使 用 的 正 态 统计 量 的 慎 ， 

(7) 两 个 变量 中 位 数 根 等 的 符号 秩 检验 法 

【 示 数 ] signrank 

【车 式 ][P,hstat] = signrank(x, yyalpha) 

【说 明 ] 检 验 的 原 慨 设 为 西 个 变量 的 样本 中 位 教 扯 竺 . 邓 数 同 fstest2,， 注意 ，stat 中 
包括 : signrank 为 疹 号 竺 锭 计量 的 值 ，zval 为 计算 避 慎 使 用 的 正 态 统计 重 的 值 ， 

(8) 两 个 变量 中 位 数 相等 的 符号 检验 法 

【机 数 ]signtest 

【 千 坟 fp,h, stat] = signtest(x, yyalpha) 

【说 明 ] 同 signrank， 

(9)》 正 态 分 布 的 拟 合 优 度 大 禅 本 检验 法 

{ 画 数 ]jbtest 

{ 蒜 式 ] [hp, staty ev] = jbtest(xalphal) 

【说 明 ] 答 验 的 原 假 设 为 变量 x 服 从 正太 分 市 . 参数 同 kstest， 

(10) 正 态 分 布 的 拟 合 优 度 小 样本 检验 法 

【函数 ]lillietest 

【车 示 ] [hp,stat,ev] = lillietestf xy alpha) 

【说 明 ] 同 jbtest. 

六 、 方 差分 析 与 回归 分 析 初 步 

(1) 单 因子 方差 分 析 

【西数 ] anocval 

[和 骆 式 ]】[P,anovatab, stats] = anoval(X,group, displayopt7) 

【说 明 ] 输 入 参数 和 是 r 个 变量 的 za 个 祥 本 观测 值 的 Xr 算 蛛 ，group 是 与 X 对 应 
的 表示 个 变量 的 名 字 或 郝 义 的 字 葫 串 数 组 ， 通 常 献 省 使 用 ， 引 用 参数 由 splayopt 有 两 
个 状态 on 和 off， 分 别 表 示 显 示 和 隐藏 方差 分 析 表 图 形 和 Box 图 . 

输出 参数 为 习 葛 各 列 均值 相等 的 最 小 显著 性 概 奉 ，p 的 值 越 小 ， 原 假设 越 受 置 
疑 ， 表 示 这 个 因素 对 随 宙 变 量 的 影响 是 显著 的 .anovatab 和 stats 分 别 拓 回 方 兰 分 析 表 和 
一 个 附加 的 统计 数据 结构 ， 可 以 缺 省 ， 

(2) 双 因 子 方 差分 析 
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【函数 ]anoval2 
【格式 ] [p,table] = ancva2(X,teps， 出 splayopt”) 
【说 明 ] 输 入 趣 阵 和 的 行 、 列 各 表示 一 个 因子 ， 不 同 的 行 ( 列 ) 表 示 该 因子 不 同 处 理 下 
的 响应 谈 量 前 观测 值 疝 量 ， 每 一 个 “ 行 与 到 的 侦 对 " 称 为 一 个 数据 单元 ， 如 果 各 数据 单元 
拥有 多 于 一 个 前 观测 点 ， 则 参数 reps 声明 每 一 个 单元 观测 点 的 数目 .如 在 下 面 的 抢 阵 中 
AAA=l1 A=2 
[ran 空 112 je 
了 121 于 122 
211 。 交 212 je 


221 字 222 





了 911 亚 312 
人 人 | ja 


321 交 322 

行 因子 有 三 种 不 同 处 理 ， 列 因子 有 两 种 不 同 处 理 ， 每 个 数据 单元 不 同 数 据 标 号 (变动 的 
下 标 ) 个 数 为 ?2， 则 teps=?2( 亦 即 每 个 数据 单元 行 数 与 列 数 的 较 大 者 )， 

生出 参数 日 是 答 验 列 、 行 及 其 交 豆 作用 均值 相等 的 最 小 显著 性 概率 (向 量 ) . 

(3) 窗 元 线性 回归 分 析 

【本 数 ] regress 

【格式 】[b, bint, rrint, stats] = Tegress(y, X,alpha) 

【说 明 ] 用 于 户 个 自 变 量 、 一 个 因 变 量 前 战 性 回归 模型 了 = 戏 +g，E 一 NO，o2T) 
的 建 模 和 模型 评价 . 其 中 ， 输 入 邓 数 和 表示 户 个 自 变 量 的 岂 个 观测 值 的 呈 X 户 埠 降 ，y 
表示 因 变 量 的 ma 个 观测 值 竟 zxX1 疝 量 ， alpha 是 显著 性 水 平 (可 以 献 定 ， 此 时 四 认为 
0.05); 输出 参数 b 返回 的 是 模型 系数 (向量 ) 有 的 最 小 二 来 估计 值 ，hbint 是 有 的 100(1~ 
引 pha) 久 置信 区 间 ，r 是 模型 拟 合 残 差 { 向 量 )，rint 是 模型 拟 合 或 差 的 100(1 -- alpha)% 
置信 区 间 ，stats 包含 可 决 条 数 尺 的 值 . 方 差分 析 的 蕊 统计 量 的 值 、 方 半分 析 的 显著 性 概 
率 户 值 和 模型 方差 g 前 估计 值 ，bint\r\rint 和 stats 可 以 献 省 ， 

(4) 逐步 回归 建 模 集成 指令 

【函数 ]】 Stebpwrisefit 

[ 阁 式 】 

[bb, se, bval, inmodel, stats, nextstep, history] = stepwisefit(X,Yy， paratml ,valuel,， 
bartatrm2 ,value2，… ) 

【说 明 】 用 于 疡 个 自 变 量 、 一 个 因 变 量 的 线性 回归 模型 了 = 著 +6，s 一 NTDO，c27) 
的 建 模 和 模型 评价 . 其 中 ， 各 天 数 的 意义 如 下 ， 

和 输入 参数 
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匡 一 一 户 合 自 灾 量 的 个 观测 值 的 X 访 短 阵 ， 
y 一 一 因 变 量 的 个 观测 值 的 如 xt 向量. 
paramk ' 一 一 第 下 个 引用 参数 ,valuek 是 其 取 值 ， 道 常 可 以 献 省 , 这 里 只 介绍 了 个 可 
能 会 用 到 的 引用 和 参数; 
"penter: 设置 国 扫 方程 显著 性 检验 的 显著 性 概 府 上 人 限 ， 献 省 设置 为 0.05; 
设置 回归 方程 显著 性 检验 的 显著 性 概率 下 限 ， 缺 省 设置 为 








”preIDOwe ” 
0.10; 
"出 splay "一 一 用 来 指明 是 否 强制 显示 建 模 过 程 信息 ， 取 值 为 'on?{ 显 示 ,， 献 省 设 
置 )，'off (不 显示 ). 
输出 参数 
b 一 一 模型 条 数 ， 
se 一 一 模型 条 数 的 标准 误差， 
pval-- 一 -显著 性 检验 各 个 自 变量 的 显著 性 概率 ， 
inmodel 一 一 各 个 自 变 重 在 最 终 回 归 方 程 中 地 位 的 说 明 (1 表示 在 方程 中 , 0 表示 不 
在 万 程 中 )， 
stats- 一 一 一 个 构 芭 数组， 包括 : 
souree ; 建 模 方 法 前 说 明 ，"stepwisefir' 表 示 逐 步 回归 法 
die: 最 优 回 归 方 程 的 阐 余 自由 度 ; 
di0, 最 优 回 妇 方程 的 国 扫 自由 度 ; 
SStotal, 最 优 回归 方程 的 总 息 差 平方 和 ; 
SSresid: 最 优 回 归 方 程 的 剩余 平方 和 ; 
fstat: 最 优 回归 方程 的 统计 量 的 值 ; 
pval; 最 优 回 归 方 程 的 显著 性 概率 ; 
rmse: 最 优 回归 方程 的 标准 误 姜 估 计 ; 
也 :模型 条 数 ; 
SE: 模型 来 数 的 标准 误 差 ; 
TSTAT: 每 个 自 变 量 显 著 性 检验 的 了 统计 量 的 值 ; 
PVAL: 每 个 自 变 量 显 著 性 检验 的 显著 性 概率 ; 
intercept: 常数 项 的 点 生计; 
等 车 ， 
nextsteb 一 一 对 有 是否 还 有 需要 引入 回归 方程 的 自 蛮 量 的 说 明 (0 表示 没有 )， 
history 一 一 一 个 板 困 数组 ， 甸 插 ; 
rmse: 每 一 步 的 模型 标准 误 盖 估计 |; 
dt: 每 一 步 引 入 方程 的 谈 重 个 数 ; 
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in:; 记录 了 按 相 关系 数 绝 对 值 大 小 逐步 引入 国 妇 方程 的 变量 的 次 序 . 

(5) 有 步 回归 建 模 交 互 式 网 形 环 境 

【函数 ] stepwise 

【格式 ] stepwise{ 和 X,y, inmodel, penter, premove) 

【功能 说 明 ] 创建 多 元 线性 固 归 分 析 前 到 步 国 归 法 建 模 的 交互 式 图 形 环境 ， 

【参数 说 明 】 

买 一 一 访 元 线性 宰 型 解释 变量 的 呈 个 观测 值 的 #X 疡 起 阵 . 

y 一 一 户 元 线性 模型 因 严 量 的 ?个 观测 值 的 站 XT 向 重 ， 

inmodel 一 一 标量 或 向 量 ( 由 的 列 号 棕 成 )， 用 来 指明 最 初 引 入 回归 方程 的 解释 亦 
重 ( 款 省 设置 为 空 ) ， 

Penter 一 一 模型 检验 的 显著 性 水平 上 限 什 ( 款 省 设置 为 0 ,05)， 

Prermoveb 一 -一 模型 检验 的 显著 性 水 平 下 限 值 (页 省 设置 为 晶 ,10)， 

【交互 支 图 形 界面 的 说 明 ]】 

窗口 _ Coefficients with Error Bars 

综 出 各 个 解释 变量 回归 系数 的 估计 ， 轩 点 表示 点 估计 愤 ， 横 线 表 示 置 信 区 闻 ( 有 多 
线段 表示 90 听 置信 区 间 ， 轩 多 线段 表 示 05 有 置 信 区 间 )， 窗口 的 证 侧 绘 出 回归 素数 前 点 
估计 值 (Coeff)、 至 著 性 检 划 的 + 统计 量 的 值 (tstet) 和 显著 性 禄 率 p 慎 (P-val)， 

窗口 I Model History 

该 窗口 绘 出 的 圈 志 表示 历次 建 模 的 模型 标准 盖 6 的 估计 ， 

两 个 窒 门 中 间 输 出 的 是 当前 模型 的 有 关 信 息 ， 包 括 ， 

lntetrcept 一 一 模型 蕉 距 ( 常 数 项 ) 的 估计 ; 

RMSE 一 一 模型 标准 差 o 的 估计 ; 

R-square- 一 一 可 决 科 数 ; 

生 丰 -R-sg 一 一 校正 的 可 决 条 数 ; 

EF---…- 模 型 整体 性 检验 的 FF 统计 重 的 值 ; 

bp 一 模型 整体 性 检验 的 显著 性 在 率 . 

窗口 I 右 侧 的 三 个 按钮 ; 

Next Step 一 一 在 回归 万 程 中 按 相 关 来 数 绝对 值 大 小 逐次 引入 解释 变量 ， 如 无 解 释 
变量 可 引入 时 ， 防 所 不 可 用 、. 

Ai] Steps 一 一 直 贸 给 出 "只 进 不 出 "方式 建 樟 的 最 终结 果 { 注 意 ， 此 时 的 回归 方程 未 
必 有 是 最 优 回归 方程 )， 

Export… 一 选择 向 到 orkspace 传输 的 计算 里 果 ({ 有 关 变 量 名 可 由 用 户 自 定义 )， 

(6) 多 元 二 次 函数 拟 合 建 模 

【 画 数 ] rstool 





附录 下 MaAITTAB 营 用 统计 分 析 轴 数 。223 。 


[ 糙 式 ] rstoolf(x，y，tmedel，alpha) 

【说 明 】 多 元 二 次 男 数 为 目标 画 数 所 合 建 模 . 输入 参数 x 为 茵 X 琴 虑 阵 ，y 为 呈 维 列 
向 重 ，alpha 为 显著 性 水 平 ( 献 省 时 设 羔 为 0.05)，imodel 由 下 列 4 个 模型 中 选择 1 个 (用 
字符 率 葵 入 ， 缺 省 时 设 定 为 北 性 模型 ) 

finear( 线性 而 数 ): y= 有 + 有 zi+ 十 民 Ti 


purequadratickt 纯 二 次 函数 ): yy = 记 二 记 丁 全 十 记 了 二 Bi 
5 


intetaction( 误 叉 二 次 画 数 jy = 包 十 房 zi 十 … 十 月 工 十 >， PrzTt 
1 Nm 


quadratic( 完全 二 次 函数 )， 7 = 两 + 月 了 1 二 们 十 用 x 十 2 Brrrs， 
帮 于 机 
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附录 C 正文 中 缺 省 的 M- 文 件 


《1) notrmplot_1.m 

% 设 定 正 态 分 布 的 分 布 参数 上 和 c 及 绘图 区 域 
clear 

ml 三 2.9$;mIZ2 一 3;S 这 mat 一 各 .9;Sigma2 一 眉 .6; 
X= (inu2 一 4xS5gina2:0.01:(nmu2+4: sigma2); 
% 考察 均值 的 影响 

7IL = Pormbdifx, mul ,sigmaly》; 

只 =mnormpd 并 fx mu2,sigmal ) ; 

% 考察 方差 的 影响 

邮 = normpdffx, imul,sigmal y) ; 

由 = normpdffx, mul ,sigma2) ; 

% 考察 结果 的 可 视 化 

subplotf1,2,1) 

blot(x,y1， 一 二 Xi 一 b) 

Xlabel( ”fontsizej121 P1<12,c1=o2?) 
legendf 有 2) 

subbiot(1,2,2》 

plot(x, 7， 一 熙 ,xy74， 一 bb 

xlabelf ”fontsize|12| pn = /2, 叶 所 o2) 
]egendf dl， 


(27 normplot_2.m 

% (标准 ) 正 态 分 布 密度 曲线 下 的 面积 
clear,e 玫 

和 = linspacef 一 5,S,100)， 

立 = normpdft(X,0,1); 

yy7=normpdqdf( [~3, 一 2, 一 1,0,1,2,3],0,1); 
bletX YY ,KE- [0,0],[0,yyf47] ce- ， 门 
beid on 
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plot([ 一 2 一 2],[0,yy(2)]，mm [2,2],[0,y7(6)，mm [一 2 一 05],[7746)， 
(6)]，m3 [0.5,2] ,1y7(6) 760] mn: 

plot([ 一 1 一 1 吉 ,[0,yy(3)]，g: [1 1 [07y(3)]，g [一 二 0.5],Tyy4S) 77 
(5)]，8，,[0.3,1],[yy(5) 7735，E5 

Plot( [一 3 一 3 [0,7F 蕊 ] bb: [3 3] [0,77(C7]，b [一 3 一 93 [yy(C7) yy 
《7]，b [0.53] [YYy7C77]，b; 

hotd off 

textf -00.S,yy(6) +T0.003， NA fontsizef14195.44 冯 7) 

text( 一 站 .3 YY(3) +T0.00S，， AN fontsize114168.26% 7) 

text( 一 站 ,yy(7) 二 0.005, AN fontsize114199.74%% 

text( 一 3.2,， -0.03,， ”fontsizeit0ln 一 3c7) 

text( 一 2.2, 一 00. 的 ,NA fontsizejl0ln- 2o7) 

rextf 一 .2 一 0.03， AN fontsizej 104 一 o) 

text[ 一 站 05， 一 0 .03，，A fontsize| im 

text( 有 8， 一 人 .03, ”NA fontsize10j+o) 

textf ,8 一 站 .03，，A fontsizejl0ipn+2o7 

text(2.8,， -个 ,03，，A fontsigej10|+3c7) 


《3) chi2plet ,m 

% 绽 制 不 同 自由 度 的 卡 方 分 布 概率 密度 曲线 

clear,celf 

县 =]linspacetD,20,100); 

YL = chi2pdf(X,1);%% 自 由 度 等 于 1 

Y2 = chi2pdf( 往 ,3);% 自 由 度 等 于 3 

Y3 = chi2pdi(X,6);% 自 由 度 等 于 6 

Blot( 及 ,了 1 一 攻 其, Y2， 一 hh XY3 一 7 

%title( ”fontsizell18| fontaame| 华 文 新 魏 | 不 同 自 由 度 的 | \ chil2 分 布 概率 密度 
曲线 的 比较 ) 

text(0.6.0.6, NA fontsize| 近 di:n=17) 

text(2.6,0,2， AN fontsize|l21dtin=32) 

text(8.6,0.09,，A fontrsize|i2jdtin= 6 

和 legendf( "二 :=1 din=37 dfin= 帮 


(4 tplot.m 


。 226 。 执 理 统计 与 id77.4 史 数据 处 理 


名 绘制 + 分 布 邹 率 密 度 曲 线 

clear ,elf 

和 =]inspacef 一 4,4,100); 

Y0= normpdt(X,0,1); 六 标准 正 态 分 布 

Yl1=tpdf(X,45); 六 自由 度 为 45 

Y2=tpdf(X,4); 和 自由 度 为 4 

Y3=tpdt(X,2);% 自 由 度 为 2 

YY0O-= normpbdff0 ,0,1); 

Ploetf 其 YO，,b 以 ,了 1， 一 CT 一 mm 一 10,0].[0,YYO] :rr 
%title( ”fontsize118| \ fontmname| 华 文 新 魏 | 不 同上 自由 度 的 + 分 布 概率 密度 曲线 ) 
legendf NE0,1) dtn= 和 df:n=4:， 星 :n=27 


《5)》 节 ]ot 1,m 

名 绘制 下 分 布 概率 密度 曲线 

cleatr,clf 

共 =]inspacefD ,6,1007 ; 

Y= fpdf(X, 10,3);% 自 由 度 等 于 10,5 

blot( 革 ,了 ) 

textf1 .3,0.$5$， ”NA fontsjze 上 id4idfin1=10,22=57) 


《6) 息 lot_2.m 

% 考 察 自 由 度 对 下 密度 曲线 形态 的 影响 

clear ,cif 

双 = linspacef0 ,6,100): 
Y11=fpdt(X,100,10);%% 自 由 朗 等 于 100,10 
Y12= fpdf(X,5,10); 入 自由 等 于 $,10 
Y21= 印 峙 (X,10,100)7; 各 自由 度 等 于 10,100 
Y22= 了 pdf(XX,10,5);%% 自 由 度 等 于 10,5 
subplet(2,1,1) 

plot(X,Y11,X,Y12) 

legenhd( di;100,10， df:5,107 
subplot(2,1,2) 

plot(X,Y21,X,Y22) 

jegendf 时 :10,100: 时:10,57 
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{71 Hphaplot.m 

%a 分 位 数 示 意图 (标准 正 态 分 布 ,=0.05) 

fle 拉 

计 

data= normrd (人 ,1 ,300 1); 

xalphal = nottminvy (0.03,0,1); 

Xalpha2 二 nofrtminy (个 .95 ,01); 

xalpha3 = norminvy (0 .025 ,0 1) ; 

Xalphad4 = nottminvy (0.975,0, 芋 ) ; 

subplet(3,1,1) 

capaplot( data,[ -inf ,xalphat]); axisf[ 一 3,3.0.0.45] ) 
subplet(3,1,2) 

eapaplot( data, [ xaipha2 ,int]);axisf{f 一 3,3,0,0.45]) 
subplot(3 ,1,3) 

capaplott data, [ - jbf, xalpha3g] ) ,axisf [ 一 3,3,0,0,45]) 
hoeld on 

capabloetf data, [ xatphad ,inf] ) ,axisf[ 一 3,3,0,0.45]) 
boid of 


《8 stand ,mm 

funetion X0D = standf 及 ) 

% STAND 将 数据 手 阵 和 逐 列 进行 标准 化 处 理 ,输出 标准 化 数据 X0 
入 语法 

和 X0O = stand(X) 

% 参 数 说 明 

% 和 一 原始 数据 生 阵 

% 0 一 标准 化 后 的 数据 矩阵 


% 编号 于 2007 年 5 月 18 日 ,修改 于 2007 年 11 月 12 日 
Zeros(f sizef 入 ) ) ; 


[nr,nx] = sizef 和) ; 


for ink = 三 1:nr 
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基 0fmE, 三 CXCmk， 人 一 Imean( 有 其) 7 std 其 ) 


en 寺 


【9) byEpcer. m 

funetion [ 攀 ,C,T,U,P,R] =bykper(E0,FO) 
%BYKPCR 提 如 PLS 建 模 过 程 所 有 可 能 的 主 成 分 
和 % 语 法 

% [到 ,CT,U,P,R]=bykper(E0,FO) 

钒 参数 说 明 

% E0 一 自 变 量 标 准 化 的 样本 数据 nxp 矩阵 
% F0 一 困 变 量 标准 化 的 样本 数据 nxq 和 矩阵 
%% 可 一 模型 效应 权重 PXxrankE0 矩阵 

% 《一 因 变 量 权 和 更 qx tankE0 和 矩 阵 

% 了 T 一 自 变量 系统 主 成 分 得 分 nx rankE0 算 阵 
% TU 一 因 变 量 系统 主 成 分 得 分 nx rankE0 此 阵 
% 了 一 模型 效应 载荷 量 px rankE0 和 矩阵 

% 了 一 因 变 量 载荷 量 gx rankE0 具 阵 


% 编写 于 2007 年 5 月 18 日 ,修改 于 2007 年 11 月 12 日 


各 =Tank(E0) ; 

桶 二 [; 

L=[]， 

T=[]; 

U=[]; 

了 = 上 ; 

R= []; 

for by = 工 : 丰 

% 多 取 主轴 与 主 成 分 
EFFE=E0'x*POxFO'xEO 
FEEFE=FO' + 上 EOxrEDO'<EF0O ; 
options,tol= eps; 

options ,qisp 三 必 ; 
[w,LAMBDA] = aigs(EFFE ,1，lm* ,options); 





附 爱 C 正文 中 缺 省 的 M- 文 件 


[ec, LAMBDA] = eigs(EEEF ,Ilmy ,options) ; 
计 三 EDOx# wi; 

UL 天 FUO < cei 

隐 =[ 殉 ,Wi 

C= [Ce]; 

工 = [下 , 计 ] ; 

U=[U,ul]; 

双 计 算 残 差 

PL=(E07 xtl)nornftly 22; 
EL=E0- 一 txtpl，E0O= 了 1; 
r1=(F0: *tlyxznormttl) 2; 
Fl=FO- 红 #I ;FEO=Flti 
了 =TP,pl]; 

R=[R,rL]; 


en 


{10)》 Blsra,m 

function RA= plsraf 工 ,及 ,FO,rankE0) 

%PLSRA 求 出 主 成 分 的 累积 复 测 定 系数 

% 语 法 

% RA=Pplsra( 了 工 ,R,F0,rankE0) 

% 参 数 说 明 

和 了 一 自 变量 系统 主 成 分 得 分 nx rankE0 抢 阵 
% R 一 因 变 重 载荷 量 q x rankF0 抢 阵 

% F0 一 办 变量 标准 化 的 样本 数据 nxda 撼 阵 

% rankE0 一 plspcr 提取 的 主 成 分 个 数 


匆 编写 于 2007 年 5 月 1 日 ,修改 于 2007 年 1 革 月 12 晶 


RAAA= []; 
fotr byk=1irankE0 


RAbyk = sumf norm(T(: ,byk)) .22< normCRC :byk)), 2) .AZ(nhormn(F0)) 2; 


RAAA= [RAAA,RAbyg]; 
End 
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RA= cumsttntRAAA) ; 


【11) plsrq,m 
function [Rdx, Rd RdXt,Rdy,RdY,RdYt] = plsrdfE0,PO,T,b) 
% 玫 数 功能 
% PLSRD 分 析 主 成 分 解释 能 力 
% 语 法 
% [Rdx, RdX, RdXt,Rdy,RdY,RdYt] = plsrd(E0,F0,T,D) 
% 参 数 说 明 
和 E0 一 标准 化 后 的 自 变 量 数 据 
% F0 一 标准 化 后 的 因 变 基数 据 
% T 一 自 变 量 系 统 主 成 分 得 分 mx rankE0 此 阵 
% h 一 用 于 建 模 或 希望 进行 解释 能 力 分 析 的 主 成 分 个 数 
% Rdx 一 各 主 成 分 对 于 某 自 变量 的 解释 能 力 
% RdX 一 各 主 成 分 对 自 变量 组 的 解释 能 力 
% RdXt 一 全 部 主 成 分 对 自 变量 组 区 累计 解释 能 力 
% Rdy 一 各 主 成 分 对 于 某 因 变 贡 的 解释 能 力 
% RdY 一 各 主 成 分 对 因 变 量 组 的 解释 能 力 
% RdqYt 一 全 部 主 成 分 对 因 变 基 组 的 票 计 解 释 能力 


% 编写 于 2007 年 月 18 日 ,修改 于 2007 年 11 月 过 日 


%- -成 分 对 自 变量 解释 能 力 分 析 - - 
[nr,nx] = sizefE0); 
[nr,ny] = size(FO) ; 
Rdx= zeros(nXx ,hy) ; 

计 三 zerosf mr,1); 

xl = zerosfnr,T) ; 

fof 习 = 工 :nx 

for 刀 三 1:h 

夺 =T(: ,ty ; 

XT = 了 0( :如 ); 
cc=《ecorreoefftl , xt)) 2; 
Rdx(xtiD) = cefl,2); 
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ehd 

end 

及 dxi; 

Rd = sutmm(Rdxy Znx ; 
RdXAt= SurmT 有 Rd 人) ; 

竟 - -成 分 对 因 变 量 解释 能 力 分 析 - - 
Rdy= zerosf ny,h) ; 

yL = zetostnr,1); 

for 对 =13:ny 

for 三 = 1 :hh 

人 乌 =Tf: ti)， 

y1= FOCUS) 

过 = (cotteoefftl yl) .2; 
Rdy( 7 ,ty=rrfl1,2); 
end 

end 

Rdy; 

RdYy = sumf 及 dy) ,Zny; 
RdYt= sumCRdY) ; 


《12) plsutcor,imn 

funetion cr= PlsutcorfU ,T7) 

竟 PLSUTCOR 绘制 lxul 图 ,并 给 出 二 者 的 相关 系数 
% 语 法 

和 er=PlsuteorfU ,T) 

% 参 数 说 明 

和 U 一 因 变 量 提取 的 成 分 

% T 一 自 变 量 提 取 的 成 分 

癌 cr 一 自 蛮 量 与 凡 变 量 的 相关 系数 


% 编写 于 2007 年 5 月 1 日 ,修改 于 2007 年 1 月 12 日 


ul=U(f: 1); 
革 三 人 (1); 


e 23 
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ut=[ul,tt]; 

导 = cotteoef( ut) 
pletftl1 ,ul oo ) 
tsline 

titlef "tlZzul 图 ”) 
xlabelf'tl ) 
ylabelf ul) 


【13) pls.m 

funection SCOEFFE = bls(h,p, 罗 ,PP,R) 

% PLS 求 偏 最 小 二 冬 回 归 方程 的 系数 
% 语 法 
% SCOEFF= pls(h,p, 殉 ,P,R) 

% 参 数 说 明 

% h 一 用 于 建 模 的 主 成 分 个 数 

% p 一 自 变 量 个 数 

% 玖 一 模型 效应 权重 pxrankE0 矩阵 
9% P 一 模型 效应 载荷 量 px rankE0 抢 阵 
和 % R 一 因 变 量 载 竺 量 qx rankE0 矩阵 
% SCOEFF 一 偏 最 小 二 乘 回 归 方程 的 系数 pxq 惩 阵 


% 编写 于 2007 年 5 月 18 日 ,修改 于 2007 年 11 月 12 日 


for byk = 1:h 

让 byk= =1 

丁 习 ( 1 ,byk) 三 名 ( : ,byk ); 
SCOEFF= 丽 X(: ,byk) * Rbyk) 
else 

TI= eye(P) ; 

ww 二 eye(P); 

for bykbyk=1:byk 一 工 

机 WwW 二 古 权 关 ( 一 到 (bykbyk) # P(: ,bykbyk)7); 
end 

覃 其 (hyk) = wmw+ 多 (bygk); 
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end 
SCOEFE= 妈 X(: byk) 关 RCI: ,byk) |; 


end 


【14) plsiscoeff.m 

funetion [COEFF,INTERCEP] = plsiseoeff(X,Y,B) 

% PLSISCOEFF 标准 化 回归 系数 道 标 准 化 处 理 , 输出 原始 自 变量 对 国 变量 的 回归 
系数 及 常数 项 

% 语 法 

% [COEFF,INTERCEP] = plsiseoeff(XX,,B) 

%% 和 参数 说 明 

% X 一 原始 自 变 量 数 据 

% Y 一 原始 因 变 量 数据 

% 也 一 标准 化 变量 梧 归 方程 的 系数 

% CORFTF 一 原始 变量 回归 方程 的 系数 

% INTERCEP 一 原始 变 基 回归 方程 的 常数 项 


% 编写 于 2007 年 5 月 418 日 ,修改 于 2007 年 11 月 12 日 


Exrow, xceol] = Sizef 蕊 ) ; 

[yrow, ycol] =sizefY) ; 

for IT:ycoi 

bykCOEFEF(C: , 记 =BO: iD #stdtY( iD); 
end 

for j= 1:ycol 

for 1 一 1 :xcol 

COEFF(i,i)=bykCOEFRF(i ,istdfXC: ，i); 
end 

en 村 


INTERCEP= mean(Y) - (mean(X) * COEFF); 


{15) plsvip.m 
function VIP= plsvip( 允 ,RdY ,RdYth) 
% PLSVIP 进行 变量 授 影 重要 性 分 析 
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御 语 法 

和 VIP= plsvipf 克 ,RdY,RdYt hy 

% 参 数 说 明 

% 机 一 让 变量 提取 的 主轴 值 

% RdY 一 各 成 分 对 因 变 量 组 的 解释 精度 

% RdYt 一 全 部 成 分 对 因 变 量 组 的 解释 精度 
% h 一 用 于 建 模 的 主 成 分 个 数 

% VIP 一 变量 投影 重要 性 指标 


% 编写 于 2007 年 5 月 18 日 ,修改 于 2007 年 11 月 12 日 


Fnx, wk]=sizef 到); 

YIP= zerosf 1,nxy); 

for j = 1 :nx 

for hh 三 1: 

覃 刘 = 允 人 ,hhy); 

tvipfhh) = RdYfbhhy sx Whj .2; 
eng 

S_tvip=sumftvrib) ; 

VIP = sqrt((nxZ RdYLt) Stvip); 
end 

bar(YIP,'e7) 

title( 变量 投影 重要 性 VIP 图 ') 
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